python爬虫学习

自动获取百度搜索结果的前N页标题

2017-10-20  本文已影响2人  tonyemail_st

百度网页的自动搜索

import urllib.request,re
keywd="Python"
titles = []
for i in range(1,11):
    pagenum=(i-1)*10
    url="http://www.baidu.com/s?wd=" + keywd + "&pn=" + str(pagenum)
    data=urllib.request.urlopen(url).read().decode("utf-8")
    pat= 'data-tools=\'{"title":"(.*?)"'
    pat1="data-tools=\"{title:'(.*?)'"
    rst=re.compile(pat).findall(data)
    rst1=re.compile(pat1).findall(data)
    for j in rst:
        print(j)
    for z in rst1:
        print(z)

上一篇下一篇

猜你喜欢

热点阅读