如何用webscraper实现百度文库批量下载

2019-06-28 本文已影响0人三和的秘密基地

一、搜索目标文件

因为我是做运营的，现在想找百度关于“引流”的pdf文档。

在百度输入引流，然后利用百度的搜索工具，选择只查PDF格式文档。

只查PDF

其实百度还有许多其他快捷搜索方式，直接输入filetype:pdf 关键字，filetype:doc 关键字，intitle:关键字等等，这样百度搜索出来的结果只显示相关格式的文档。

百度文库

二、分析网址规律

开始分析网址，假设我们现在只采集百度前10页的搜索结果页，把前5页网址复制下来分析它们是否有相同的规律。

查看后发现在pn=x数字的前半部分网址是一样的，它们的规律是一页以10累计相加，但后半部分的网址却完全不一样，竟然没有规律那不就不能在webscraper实现批量下载了？

分析网址

抱着试试的态度，我把前半部分网址复制到百度，神奇的是发现竟然也可以跳转到对应的页码，那这样我们就可以把后半部分去掉，网址就变得规律起来。

验证是否正确

三、创建webscraper

因为网址是以10累加的，明白老师之前说过，这样的网址就可以用这样的格式[1-90:10]，因为我们前面分析了，只采集前10页，第10页的pn=90，所以网址如下

设计webscraper

不过下载百度文库的资料其实是要钱的，但是没关系，后面我会教大家方法，现在先把这些文库的链接先采集下来。

在type类型里直接选择link类型，link类型采集的结果本身就含有标题，所以我就没选择tex来采集标题了。

选择完成后，用元素检查工具查看其他页码是否选中，发现确实都选中了，除了广告部分，广告部分也不是我们想要的，所以是对的。

检查元素

四、导出结果文档

开始采集，采集完成后导出到桌面。

导出文档

打开文档，随便找几条链接检查下是否可以跳转到对应文档，发现正确。

打开文档

五、免费解析百度文库

现在就开始解析百度文库链接了，在baidu字母后面加vvv三个字母，点击确定后会跳转到一个页面，如下。

免费解析文档

跳转到这个页面后，选择你要导出的格式，然后点击下载。如下

选择下载

六、大功告成

然后就会开始下载，下载完成后，直接保存就可以啦。

大功告成。

成功

我自己平常也搜集筛选出了比较经典的引流干货，喜欢的可以直接下载哦。

链接: https://pan.baidu.com/s/1EUBWH0gEw_nayZizLrBtbw

提取码: 8e5k

引流干货