python网络爬虫7:获取真正的源代码
2021-01-02 本文已影响0人
0清婉0
用常规手段对网站进行数据挖掘难度很大,通过Selenium库则可以较容易地获取网站信息。
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
# browser.maximize_window() # 窗口最大化,使用少
browser.quit()
不打开模拟人机浏览器获取源代码
from selenium import webdriver
import time
browser = webdriver.Chrome()
browser.get("https://www.baidu.com/")
browser.find_element_by_xpath('//*[@id="kw"]').send_keys('python')
browser.find_element_by_xpath('//*[@id="su"]').click()
time.sleep(3) # 如果还提取不到,可增加数值
data = browser.page_source
print(data)