关于.shtml网页的爬取

2017-01-02 本文已影响265人 nonoBoy

近期在做一个王者荣耀的英雄APP，由于需要数据，于是用Python取官网抓数据，然而他家的网站是.shtml的，普通的方法urllib是抓不到数据的，后来通过selenium解决问题，会真实打开浏览器爬取代码，效率低一些，但是满足了本次要求；代码如下（记得安装selenuim包，配置Firefox环境变量）：

#coding = utf-8
#author: liutao
from selenium import web driver
from lxml import tree

browser = webdriver.Firefox()
browser.get('http://pvp.qq.com/web201605/herolist.shtml')
content = browser.page_source
print(content)

browser.quit() # 退出浏览器

关于.shtml网页的爬取

猜你喜欢

热点阅读