Web Scraper教程（二）爬虫入门详解之当当近期畅销书

2020-05-04 本文已影响0人 iDataFly

你一年能读几本书？一个要工作、要生活、还要玩儿的职场人，如果半个月能读完1本书，那么一年也就读24本吧！面对浩瀚无边的书海，当然要选择值得花费时间阅读的书来读了。

一、选书经验：根据阅读的目的选择找书的方法

阅读的目的不外乎以下三种：

为了在专业领域学习某种技能或者更上一层楼
对某个领域很感兴趣或者是自己的爱好
充实自己，感受未知的世界，变得更加博学

今天的方法适用于第三个目的——感受未知的世界。

用最省钱的方法买最值得读的书

当当网以图书起家，自然沉淀了很多忠实用户，同时给网站带去了很多购买量和评价数。当当就用这些数据建立了很多榜单，帮助用户更好的选书。
但是好的选书方法不一定是好的购书方法，买书当然要考虑价格了。通过当当榜单选的书，在其他平台搜索一下价格，找一个不错的价格购买，才对得起自己的时间和银子。

二、采集的榜单和内容

进入当当畅销书榜单，选择近30天的畅销书，默认展示前20本，我们就对这20本的书名进行采集。

三、采集实操讲解

1. 调出Web Scraper界面

2. 新建Sitemap，创建采集项目

首先为当当畅销榜单建立一个采集项目。如下图，创建名称为「dangdang」的Sitemap。注意命名规则，一般使用长一点的英文就可以（至少3个字母）。
Sitemap name：dangdang
Start URL：http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-1
点击Create Sitemap创建完成！

命名规则

3. 为书名添加Selector

为书名添加选择器(Selector)，步骤如下(文字与动态图结合看)：

Id：选择器名称，这里填写「title」，表示要采集的是书的标题
Type：默认为Text，表示要采集的信息是文本格式
点击Selector中的Select后，注意跳出一个条形对话框
点选第1个书名，发现书名底色变红(表示被选中)，然后点击第2个书名，此时发现后面的第3个、第4个……书名均变为红色
点击条形对话框的Done selecting!
勾选Multiple，表示除了点选的第1个和第2个书名外，本页后续底色变红的书名也都需要采集
点击Save Selector，书名的选择器配置完成！

4. 激动人心的采集时刻到来了！

按照前面配置的内容执行采集程序，步骤如下(文字和动态图结合看)：

点击Sitemap dangdang下拉列表中的Scrape，开始执行程序
出现的对话框中有两项数字内容，默认值均为2000
Request interval：表示「网页请求发送间隔」，为了不被网站判定为机器进而阻止采集，需要模拟人的行为将动作放缓，通常按默认值即可
Page load delay：表示「页面加载时长」，如果页面没有完全加载就开始采集，会造成信息采集不全，特别是在网速不佳的时候，通常也按默认值，也可适当调整
点击Start scraping开始采集，弹出一个采集窗口，注意采集过程中不要关闭此窗口，待采集完成后，窗口会自动关闭
窗口关闭后，点击refresh，出现3列数据
「web-scraper-order」：程序自动编码，不用理会
「web-scraper-start-url」：点击书名跳转的url，前面虽然只设置了采集书名的文本，但采集默认同时提供url，所以如果需要此项，不用再单独设置
「title」：要采集的书名，注意，书名的顺序并非是网页上的顺序

5. 导出数据至CSV文件

Web Scraper免费版只提供CSV一种导出形式，导出后用Excel打开即可。

点击Sitemap dangdang下拉列表中的Export data as csv
点击Download now!后出现了浏览器的下载对话框，打开或者保存即可

6. Web Scraper界面内容介绍

下面，顺序介绍Web Scraper界面中的Sitemaps、Sitemap、Create new sitemap
Sitemaps：Sitemap项目列表，所有创建的Sitemap均可在此列表找到，比如上面创建的「dangdang」就在此列表中

Sitemap：直接点击此项，Web Scraper无任何反应，因为此项只针对某一个已经创建的Sitemap，所以，要从Sitemaps中选择一个ID点击，这里点击「dangdang」，发现跳转到中间的Sitemap，并且变为了Sitemap dangdang，说明已经跳转到了指定的Sitemap内。

点击Sitemap dangdang，发现下拉列表有如下几项，逐一说明：
Selectors：选择器列表，每一个采集内容均要配置一个选择器，在上面的例子中，采集了书名，如果需要采集评论数、出版社等页面可见信息，要分别为这些信息逐一添加选择器
Selector graph：选择器结构图，显示选择器之间的树状关系，再复杂的采集项目中能够一目了然地呈现采集逻辑
Edit metadata：修改Sitemap设置，即Sitemap名称和url
Scrape：执行采集程序
Browse：浏览采集结果
Export Sitemap：导出Sitemap代码，此代码可以直接导入，无需再次配置
Export data as CSV：导出采集结果至csv文件

点击Create new sitemap，发现有两种新建Sitemap的方法，直接创建(Create Sitemap)和导入(Import Sitemap)。

当当的案例中已经讲过Create Sitemap，这里不再赘述。
点击Import Sitemap进入以下界面：
Sitemap JSON：把Export Sitemap导出的代码粘贴在此处
Rename Sitemap：为Sitemap命名
点击Import Sitemap后，同样成功创建了Sitemap

四、数据采集只是数据分析的过程

每一分钟，互联网上都会有海量的数据产生，数据的价值并非是它本身，而是通过分析数据能获得哪些有价值的信息。数据采集是一项不值得投入太多时间的工作（包括学习采集的时间和练习的时间），所以，只要学习了网页常见情况的处理方法就可以，没有必要为了学习采集而频繁练习。遇到新的问题时，再到网上寻求解答，这样会记得更牢。