Web Scraper

如何用webscraper实现百度文库批量下载

2019-06-28  本文已影响0人  三和的秘密基地

一、搜索目标文件

因为我是做运营的,现在想找百度关于“引流”的pdf文档。

在百度输入引流,然后利用百度的搜索工具,选择只查PDF格式文档。

只查PDF

其实百度还有许多其他快捷搜索方式,直接输入filetype:pdf 关键字,filetype:doc 关键字,intitle:关键字等等,这样百度搜索出来的结果只显示相关格式的文档。

百度文库

二、分析网址规律

开始分析网址,假设我们现在只采集百度前10页的搜索结果页,把前5页网址复制下来分析它们是否有相同的规律。

查看后发现在pn=x数字的前半部分网址是一样的,它们的规律是一页以10累计相加,但后半部分的网址却完全不一样,竟然没有规律那不就不能在webscraper实现批量下载了?

分析网址

抱着试试的态度,我把前半部分网址复制到百度,神奇的是发现竟然也可以跳转到对应的页码,那这样我们就可以把后半部分去掉,网址就变得规律起来。

验证是否正确

三、创建webscraper

因为网址是以10累加的,明白老师之前说过,这样的网址就可以用这样的格式[1-90:10],因为我们前面分析了,只采集前10页,第10页的pn=90,所以网址如下

设计webscraper

不过下载百度文库的资料其实是要钱的,但是没关系,后面我会教大家方法,现在先把这些文库的链接先采集下来。

在type类型里直接选择link类型,link类型采集的结果本身就含有标题,所以我就没选择tex来采集标题了。

选择完成后,用元素检查工具查看其他页码是否选中,发现确实都选中了,除了广告部分,广告部分也不是我们想要的,所以是对的。

检查元素

四、导出结果文档

开始采集,采集完成后导出到桌面。

导出文档

打开文档,随便找几条链接检查下是否可以跳转到对应文档,发现正确。

打开文档

五、免费解析百度文库

现在就开始解析百度文库链接了,在baidu字母后面加vvv三个字母,点击确定后会跳转到一个页面,如下。

免费解析文档

跳转到这个页面后,选择你要导出的格式,然后点击下载。如下

选择下载

六、大功告成

然后就会开始下载,下载完成后,直接保存就可以啦。

大功告成。

成功

我自己平常也搜集筛选出了比较经典的引流干货,喜欢的可以直接下载哦。

链接: https://pan.baidu.com/s/1EUBWH0gEw_nayZizLrBtbw 

提取码: 8e5k

引流干货
上一篇下一篇

猜你喜欢

热点阅读