利用Selenium对网页截屏

2018-12-21 本文已影响0人渐悟懂劲

Selenium有一个很好用的功能就是对网页截屏，特别适合对于一些不能复制内容的网页以截屏的方式进行保存，还能进一步处理为pdf文件。比如，可以对某某文库的内容进行截屏保存，截屏是第一步需要做的工作。

1、截取整个网页窗口

如果想截取整个网页窗口的话，可以使用save_screenshot()方法。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""Screenshot example."""

from selenium import webdriver

browser = webdriver.Chrome()

browser.get("http://www.baidu.com")

# 将当前网页窗口保存为screen01.png文件，保存在当前目录
browser.save_screenshot("screen01.png")

browser.quit()

我们运行这段代码之后，会当前目录创建名为screen01.png的图片文件。

2、将浏览器滚动条上下拉

有时候网页上的内容比较多，需要拖动滚动条拉到底部，才能全部显示出所有网页元素。这时需要控制页面滚动条的拖动，但滚动条并非页面上的元素，需要借助Javascript命令来完成操作。

2.1 将滚动条拖到底部

可以用Window.scrollTo() 方法，直接移动到指定坐标

Window.scrollTo(x-coord, y-coord)

browser.execute_script('window.scrollTo(0,10000)')

或者：

browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")

该 document.body.scrollHeight 将给出整个页面体的高度.

2.2 相对当前坐标移动

Window.scrollBy()方法用来移动相对的偏移量

window.scrollBy(x-coord, y-coord)

比如在当前位置再往下拉200个像素：

browser.execute_script('window.scrollBy(0,200)')

往下翻一页：

browser.execute_script('window.scrollBy(0,window.innerHeight)')

往上翻一页：

browser.execute_script('window.scrollBy(0,-window.innerHeight)')

2.3 页面元素的滚动条拖动

针对元素的滚动，要用Element.scrollTop方法

当一个元素的内容不能产生垂直滚动条，则它的scrollTop=0

js="var q=document.documentElement.scrollTop=10000"

# 执行javascript命令
browser.execute_script(js)

如果元素的滚动条是水平的，则使用Element.scrollLeft方法

3、关于WebElement的文档

https://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.remote.webelement