python网络爬虫7：获取真正的源代码

2021-01-02 本文已影响0人 0清婉0

用常规手段对网站进行数据挖掘难度很大，通过Selenium库则可以较容易地获取网站信息。

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.baidu.com/')

# browser.maximize_window() # 窗口最大化，使用少

browser.quit()

不打开模拟人机浏览器获取源代码

from selenium import webdriver

import time

browser = webdriver.Chrome()

browser.get("https://www.baidu.com/")

browser.find_element_by_xpath('//*[@id="kw"]').send_keys('python')

browser.find_element_by_xpath('//*[@id="su"]').click()

time.sleep(3) # 如果还提取不到，可增加数值

data = browser.page_source

print(data)

python网络爬虫7：获取真正的源代码

猜你喜欢

热点阅读