抓取网页及下一页

2019-01-16 本文已影响47人蓝云风翼

最近利用python 抓取医学网页数据：主要工具还是使用

确保已安装：selenium ，geckodriver.exe首先要打开需要抓取的网页如：查看网页源代码（F12)

网页

我们发现其中有<div class = "search-list"> 故可以首先使用：driver.find_element_by_class_name("search-list")获取网页正文内容

源代码1

然后查看"下一页"对应代码：

下一页代码

detail_url = driver.find_element_by_link_text("下一页").get_attribute('href')

下面是代码：

def get_text():

driver = webdriver.Firefox()

urls = ["url1",

"url2",

"url3"

]

ref = ['url1','url2','url3']

for i in range(len(urls)):

driver.get(urls[i])

count=0

while True:

count +=1

input = driver.find_element_by_class_name("search-list")

with codecs.open(ref[i]+'_page_'+str(count)+'.txt','w',encoding='utf-8') as f: #保存网页源代码

f.write(input.text)

try:

detail_url = driver.find_element_by_link_text("下一页").get_attribute('href')

driver.get(detail_url)

except:

break

抓取网页及下一页

猜你喜欢

热点阅读