爬虫第七讲：Selenium

2018-08-24 本文已影响0人谢谢_d802

Selenium库

什么是Selenium库

Selenium是自动化测试工具，支持多种浏览器，爬虫中主要用来解决JavaScript渲染的问题
可以用Selenium来完成网页的下拉，点击等等操作。可以完全模拟浏览器加载网页，点击按钮，就像人一样。

如何安装

pip3 install selenium

用法讲解

基本使用 ----selenium驱动chrome完成打开百度，输入关键字，点击回车的动作

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--headless')
options.add_argument('--disable-gpu')
browser = webdriver.Chrome(executable_path='/usr/bin/chromedriver', chrome_options=options)#打开浏览器,加了很多option，为了在命令行下可以正常调用Chrome
try:
    browser.get('http://www.baidu.com')#打开url
    input = browser.find_element_by_id('kw')#找到id为kw的元素，并赋值给input
    input.send_keys('Python')#input向这个元素传入Python字符串
    input.send_keys(Keys.ENTER)#向input这个元素传入回车
    wait = WebDriverWait(browser,10)#等待10秒
    wait.until(EC.presence_of_element_located((By.ID,'content_left')))#一直等待，直到id= content_left的元素加载完毕
    print(browser.current_url)#打印当前的url
    print(browser.get_cookies())#打印当前浏览器的cookie
    print(browser.page_source)#打印当前页面的源代码
finally:
    browser.close()#关闭浏览器

声明浏览器对象

from selenium import webdriver
browser = webdriver.Chrome(executable_path='/usr/bin/chromedriver', chrome_options=options)
browser = webdriver.Firefox()
browser = webdriver.Edge()

访问页面

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--headless')
options.add_argument('--disable-gpu')
browser = webdriver.Chrome(executable_path='/usr/bin/chromedriver', chrome_options=options)
try:
    browser.get('http://www.taobao.com')#访问淘宝
    print(browser.page_source)#返回页面源代码
finally:
    browser.close()

查找元素，比如找到input 输入信息，找到button，模拟点击

查找单个元素

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--headless')
options.add_argument('--disable-gpu')
browser = webdriver.Chrome(executable_path='/usr/bin/chromedriver', chrome_options=options)
try:
    browser.get('http://www.w3school.com.cn/css/index.asp')
    input_first = browser.find_element_by_id('intro')
    input_second = browser.find_element_by_css_selector('#intro')
    input_third = browser.find_element_by_xpath('//*[@id="intro"]')
    print(input_first,input_second,input_third)
finally:
    browser.close()

返回结果:

<selenium.webdriver.remote.webelement.WebElement (session="c29059732801b21c6317ce92c7484751", element="0.057789670625651324-1")> <selenium.webdriver.remote.webelement.WebElement (session="c29059732801b21c6317ce92c7484751", element="0.057789670625651324-1")> <selenium.webdriver.remote.webelement.WebElement (session="c29059732801b21c6317ce92c7484751", element="0.057789670625651324-1")>

有以下查找元素的方法

find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
通用查找模式 find_element(By.ID,'intro')

查找多个元素


from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--headless')
options.add_argument('--disable-gpu')
browser = webdriver.Chrome(executable_path='/usr/bin/chromedriver', chrome_options=options)
try:
    browser.get('http://www.taobao.com')
    lis = browser.find_elements_by_css_selector('.service-bd li')#注意是find_elements_XXX
    lis = browser.find_elements(By.CSS_SELECTOR,'.service-bd li')#和上面的方法的结果一样。这里用通用查找多个元素方法
    print(lis)#返回一个列表
finally:
    browser.close()

有多种方法查找多个元素

find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector
通用查找模式 find_elements(By.ID,'intro')

元素交互操作

对获取的元素调用交互方法

我们用上面的find_element等方法的到了元素，那么怎么操作这些元素呢？

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.chrome.options import Options
import time

options = Options()
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--headless')
options.add_argument('--disable-gpu')
browser = webdriver.Chrome(executable_path='/usr/bin/chromedriver', chrome_options=options)
try:
    browser.get('http://www.taobao.com')
    input = browser.find_element_by_css_selector('#q')#找到id='q'的input
    input.send_keys("iPhone")#在这个input中输入iPhone
    time.sleep(1)#等待1秒钟
    input.clear()#清空输入框
    input.send_keys("iPad")#input输入iPad
    button = browser.find_element_by_class_name('btn-search')#找到类名为‘btn-search’的元素
    button.click()#这个元素执行click函数
finally:
    browser.close()

更多操作

交互动作与元素交互动作不同

将动作附加到动作链中串行执行


from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.chrome.options import Options
from selenium.webdriver import ActionChains

options = Options()
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--headless')
options.add_argument('--disable-gpu')
browser = webdriver.Chrome(executable_path='/usr/bin/chromedriver', chrome_options=options)
try:
    browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')
    browser.switch_to.frame('iframeResult')
    source = browser.find_element_by_css_selector('#draggable')
    target = browser.find_element_by_css_selector('#droppable')
    actions = ActionChains(browser)
    actions.drag_and_drop(source,target)
    actions.perform()
finally:
    browser.close()

更多动作链

执行JavaScript

from selenium import webdriver
browser = webdirver.Chrome()
browser.get('http://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

获取元素信息

获取属性

from selenium import webdriver
from selenium.webdriver import ActionChains
browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
logo = browser.find_element_by_id('zh-top-link-logo')
print(logo)
print(logo.get_attribute('class'))

获取文本值

from selenium import webdriver
browser = webdriver.Chrome()
url = 'http://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.text)

获取ID、位置、标签名、size

from selenium import webdriver
browser = webdriver.Chrome()
url = 'http://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.id)
print(input.location)
print(input.tag_name)
print(input.size)

Frame

网页可能存在不止一个frame

import time
from selenium import webdirver
from selenium.common.exceptions import NoSuchElementException

browser = webdriver.Chrome
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.swithch_to.frame('iframeResult')
print(source)
try:
    logo = browser.find_element_by_class_name('logo')
except NoSuchElementException:
    print('NO LOGO')#子frame找不到父frame的元素
browser.switch_to.parent_frame()
logo = browser.find_element_by_class_name('logo')
print(logo)
print(logo.text)

等待

隐式等待

当使用了隐式等待执行测试的时候，如果WebDriver没有在DOM中找到元素，将继续等待，超出设定时间后则抛出找不到元素的异常，换句话说，当查找元素或元素并没有立即出现的时候，隐式等待将等待一段时间在查找DOM，默认的时间是0

from selenium import webdirver
browser = webdirver.Chrome()
browser.implicity_wait(10)#设置隐式等待10秒，意义：如果知乎网站没有打开，那么默认等待10秒，如果10秒之后还找不到元素，再抛出异常。如果网速特别慢，可以用这个办法
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top=add-question')
print(input)

显式等待非常常用

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
wait = WebDriverWait(browser,10)#显式等待，更加常见，设置最长等待时间10秒
input = wait.until(EC.presence_of_element_located((By.ID,'q')))#等待条件是如果获取id是q的元素
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'btn-search')))#等待条件是获取class='btn-search'的按钮
print(input,button)

以下是expected_conditions常见操作

title_is 标题是某内容
title_contains 标题包含某内容
presence_of_element_located 元素加载出，传入定位元组，如（By.ID,'p'）
visibility_of_element_located 元素可见，传入定位元组
visibility_of 可见，传入元素对象
presence_of_all_elements_located 所有元素加载出
text_to_be_present_in_element 某个元素文本包含某文字
text_to_be_present_in_element_value 某个元素值包含某文字
frame_to_be_available_and_switch_to_it frame加载并切换
invisibility_of_element_located 元素不可见
element_to_be_cliable 元素可点击
staleness_of 判断一个元素是否人在DOM，可判断页面是否已经刷新
element_to_be_selected 元素可选择，传元素对象
element_located_to_be_selected 元素可选择，传入定位元组
element_selection_state_to_be 传入元素对象以及状态，相等返回True，否则返回False
element_located_selection_state_to_be 传入定位元组以及状态，相等返回True，否则返回False
alert_is_present 是否出现Alert
详细内容

浏览器的前进后退

import time
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('http://www.baidu.com')
browser.get('http://www.taobao.com')
browser.get('http://www.python.com')
browser.back()#后退
time.sleep(1)
browser.forward()#前进
browser.close()

Cookies，如果做登陆后爬取非常有用

from selenium import webdirver
browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies())
browser.add_cookie({'name':'name','domain':'www.zhihu.com','value':'hello'})
print(browser.get_cookies())
browser.delete_all_cookies()
print(browser.get_cookies())

选项卡管理

import time
from selenium import webdriver

browser = webdirver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')#新增选项卡
print(browser.window_handles)#返回浏览器窗口句柄
browser.switch_to_window(browser.window_handles[1])#切换到第二个选项卡
browser.get('https://www.taobao.com')#第二个选项卡打开淘宝
time.sleep(1)
browser.switch_to_window(browser.window_handles[0])#切换到第一个选项卡
browser.get('http://python.org')#第一个选项卡打开python.org

异常处理

from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.find_element_by_id('hello')#不存在id=hello的元素，抛出异常NoSuchElementException

详细异常文档

爬虫第七讲：Selenium

Selenium库

什么是Selenium库

如何安装

用法讲解

声明浏览器对象

访问页面

查找元素，比如找到input 输入信息，找到button，模拟点击

查找单个元素

有以下查找元素的方法

查找多个元素

有多种方法查找多个元素

元素交互操作

对获取的元素调用交互方法

交互动作与元素交互动作不同

将动作附加到动作链中串行执行

执行JavaScript

获取元素信息

获取属性

获取文本值

获取ID、位置、标签名、size

Frame

等待

隐式等待

显式等待非常常用

浏览器的前进后退

Cookies，如果做登陆后爬取非常有用

选项卡管理

异常处理

猜你喜欢

热点阅读

爬虫第七讲：Selenium

Selenium库

什么是Selenium库

如何安装

用法讲解

声明浏览器对象

访问页面

查找元素，比如找到input 输入信息，找到button，模拟点击

查找单个元素

有以下查找元素的方法

查找多个元素

有多种方法查找多个元素

元素交互操作

对获取的元素调用交互方法

交互动作 与元素交互动作不同

将动作附加到动作链中串行执行

执行JavaScript

获取元素信息

获取属性

获取文本值

获取ID、位置、标签名、size

Frame

等待

隐式等待

显式等待 非常常用

浏览器的前进后退

Cookies，如果做登陆后爬取非常有用

选项卡管理

异常处理

猜你喜欢

热点阅读

交互动作与元素交互动作不同

显式等待非常常用