python3的爬虫笔记8——动态加载页面爬虫

2017-05-05 本文已影响743人 X_xxieRiemann

其实大部分主流网站都不是静态的html，html和Javascript相结合已经是大势所趋。
本篇以花瓣网主页为例子。
花瓣网主页，右键查看网页源代码，获得的页面是这样的：

如果还是用之前静态页面的那一套（用requests和urllib）。由于获得的是静态页面，这时动态JS都还没加载出来，那肯定是啥都挖不出来了。

这里讲讲几种解决方法：

（1）方法一：

直接调出开发者工具，复制element的html代码，保存，用正则或BeautifulSoup或xpath提取信息。

办法很土，不过好处是绕开了模拟浏览器环境的坑。使用有较大局限性
注意：这里还可以复制Xpath和selector（对应BeautifulSoup中的select方法），这个能让我们无脑对进行单项定位。

（2）方法二：

我们可以先右键看下我们要采集的图片地址的格式：

大概格式就是' http://img.hb.aicdn.com/ '+'图片特有编号'+‘_sq320’

我们把编号直接在静态的网页源代码中搜一下，

发现图片的编号在JS中，用Xpath或BeautifulSoup是没有办法提取的，可以利用正则表达式来提取信息

但是这个页面非常恶心，实现起来会非常累。而且在首页中后缀是‘_sq320’，在其他页面还有'_sq236bl4'，‘_fw658’，‘_fw236’的格式，还要对这些进行判断也非常麻烦，这种方法有较大局限性。

（3）方法三：

用谷歌插件web Scraper实现，无需编程。
不写代码的爬虫，10分钟搞定中有详细的介绍，还有视频可以学习。
对多数网站都挺适用的，我还没怎么用过，还在学习如何使用中。

（4）方法四：

分析JS源码找出请求自己模拟实现难度比较高。
这里有个今日头条的案例：http://www.jianshu.com/p/4fe8bb1ea984 ，讲的很棒很详细，但是有时API接口找不着或者是API接口地址随机变换，那还是得用万能的方法五。

（4）方法五（最有效）：

模拟浏览器实现。比较常见的是 Selenium + PhantomJs ，基本上能解决大多数的爬虫问题，但是效率比较低，一般要配合多进程。

Selenium（点我查看中文文档，请务必先浏览一遍）是一个自动化测试框架。它能够模拟人工操作，比如能在浏览器中点击按钮、在输入框中输入文本、自动填充表单、还能进行浏览器窗口的切换、对弹出窗口进行操作。也就是说你能手动做的东西，基本都能用它来实现自动化！
Selenium模块可以在cmd中进行安装。

Selenium的安装

Selenium当前支持的WebDriver有： Firefox, Chrome, IE and Remote等。
当然也包括Phantomjs。Phantomjs是一个“无头”浏览器，也就是没有界面的浏览器，但是功能与普通的浏览器无异，但占用较少的内存。
phantomjs-2.1.1官方下载地址
不知道为啥我下载时老出问题，所以再放一个CSDN的下载地址phantomjs-2.1.1CSDN下载地址
解压后可将phantomjs.exe的路径设置到环境变量中，以win10系统为例：我的电脑 -> 右键“属性” -> 点击“高级系统设置” -> 点击“环境变量”,可以看到当前path的一些路径，为了方便，将phantomjs.exe放入到path的已有路径中。
当然，不进行环境变量设置也行，只不过是程序需要声明phantomjs.exe的位置罢了。

但是使用Phantomjs的时候，有时遇到问题的时候要卡壳很久，因为不是可视化界面，很多东西感觉像是空想。因此，一般可以使用chrome来进行编写程序，然后最后再换成Phantomjs就好了（小爬虫直接用chrome也就行了）。这里需要用到chromedriver（点击下载），然后根据需要设置环境变量，方法和phantomjs.exe的一样。chrome我用58版本的会报错，后来装了chrome52.0.2743.116版本（32位百度盘链接: http://pan.baidu.com/s/1c2t6Ei8 密码: k9y8），能够成功运行，建议不要选太新的版本。
我在实际编程中，Phantomjs有时莫名报错，就算没报错等待的时候也觉得很乏味2333，用chrome就没问题。所以还是更加推荐先用Selenium + Chrome。

以爬取花瓣网首页的图片地址为例：

from selenium import webdriver
from bs4 import BeautifulSoup
#打开一个浏览器，若phantomjs.exe或chromedriver.exe在环境变量中
#可精简为driver = webdriver.PhantomJS()或driver = webdriver.Chrome()，否则要表明路径
driver = webdriver.Chrome(executable_path="D:\\Anaconda3\\chromedriver.exe")
#窗口最大化
#driver.maximize_window()
#访问网站
driver.get('http://huaban.com')
#获得网页信息
soup = BeautifulSoup(driver.page_source, "lxml")
#利用开发者工具找到我们需要的图片地址
results = soup.select('img[data-baiduimageplus-ignore="1"]')
#for r in results时发现有最后两个列表元素不是我们需要的网址，用[0:-2]去除
for r in results[0:-2]:
    print('http:'+r['src'])
#关闭浏览器
driver.quit()

运行结果：

关于Selenium还有好多其他的用法，比如点击登录，滚动页面等等，还有iframe框架怎么处理。先挖个坑，接下来还得再讲讲。

不错的简单案例：http://www.2cto.com/kf/201704/622848.html

PS：我本身也是python刚刚入门，很多东西也不太懂，也是一点一点在学，所以网友们的问题我大多也都答不上来，只是提供一个简单的模板，大家一起参考。