2018-12-04

2018-12-04  本文已影响0人  浅谈与你

phantomj下载地址

https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2

配置driver:下载driver,并放到环境变量目录,驱动的下载地址如下:

chromehttp://npm.taobao.org/mirrors/chromedriver

firfox:https://github.com/mozilla/geckodriver/releases

使用动态方法获取数据后,也可以使用bs4,lxml等方法来截取想要获取的数据。

此功能为控制浏览器最大化显示# driver.maximize_window()
保存截图# driver.save_screenshot(baidu.png)
无视ssl证书# '--ignore-ssl-errors=true',
是否缓存# '--disk-cache=yes',
是否加载图片# '--load-images=no'
设置代理IP# '--proxy=%s' % ip, '--proxy-type=https'

设置phantomjs请求头:


from selenium.webdriver.common.desired_capabilitiesimport DesiredCapabilities

dcap =dict(*DesiredCapabilities*.PHANTOMJS)

self.driver = webdriver.PhantomJS(service_args=self.service_args,

                                  executable_path=config.BROWSER_BIN_PATH,

                                  desired_capabilities=self.dcap)

def set_headers(self, source):

    self.headers_ext['User-Agent'] =self.select_agent(source)       

    self.dcap["phantomjs.page.settings.userAgent"] =self.headers_ext['User-Agent'] 

    self.dcap["phantomjs.page.settings.referer"] =self.headers_ext['Referer']   网站来源

    self.dcap["phantomjs.page.settings.host"] =self.headers_ext['Host']    请求主机地址

    headers 是之前设置的缓存
上一篇下一篇

猜你喜欢

热点阅读