关于.shtml网页的爬取

2017-01-02  本文已影响265人  nonoBoy

近期在做一个王者荣耀的英雄APP,由于需要数据,于是用Python取官网抓数据,然而他家的网站是.shtml的,普通的方法urllib是抓不到数据的,后来通过selenium解决问题,会真实打开浏览器爬取代码,效率低一些,但是满足了本次要求;代码如下(记得安装selenuim包, 配置Firefox环境变量):

#coding = utf-8
#author: liutao
from selenium import web driver
from lxml import tree

browser = webdriver.Firefox()
browser.get('http://pvp.qq.com/web201605/herolist.shtml')
content = browser.page_source
print(content)

browser.quit() # 退出浏览器

上一篇 下一篇

猜你喜欢

热点阅读