6.selenium(获取动态页面)
2018-10-31 本文已影响0人
学飞的小鸡
# 导入selenium工具
from selenium import webdriver
chrom_path = r'D:\soft\chrome\chromedriver.exe'
# 给浏览器加入无头操作,使得调取浏览器的时候不需要打开,只需要调用其内核即可
opt = webdriver.ChromeOptions()
opt.add_argument('--headless')
# 根据驱动所在的路径创建出一个浏览器对象
driver = webdriver.Chrome(executable_path=chrom_path, options=opt)
# 无头操作
# driver = webdriver.Chrome(options=opt)
# driver对象可以操作浏览器
driver.get('http://www.baidu.com/')
# 获取页面上的某个标签元素
btn = driver.find_element_by_link_text('新闻')
print(btn)
# 点击
# btn.click()
# 找到输入框
input1 = driver.find_element_by_id('kw')
input1.send_keys('黄凯旋')
# 找到’百度一下'按钮,点击
driver.find_element_by_id('su').click()
# 对于爬虫来说,要关注于做了某些操作以后,得到的页面源码
html = driver.page_source
with open('baidu.html','w',encoding='utf-8') as fp:
fp.write(html)
# driver.quit()
input1 = driver.find_element_by_id('kw')
input1.send_keys('csjkl')