掌握开发轻量级爬虫1
2019-01-02 本文已影响1人
Datacat
接上面掌握开发轻量级爬虫0
一、VS Code上跑爬百度百科前10页的案例
1.开vscode使用CTRL+`或者点击查看到集成终端打开控制终端
2.在终端中cd到存放文件夹下面,然后git clone 地址就可以将项目拉取下来
3.一开始在主函数里总是出现这个问题,在调通期间要崩溃。
![](https://img.haomeiwen.com/i11045655/f8188abdb98ecb51.png)
最终找到解决办法是:在导包前加入加入前两行,目的是扩大搜索范围。
![](https://img.haomeiwen.com/i11045655/6993a18e531be57a.png)
下面学习一下具体编写代码
4 编写总调度程序文件spider_main.py
4.1第一步主函数
![](https://img.haomeiwen.com/i11045655/81a9810789a6d076.png)
4.2 第二步爬虫总调度程序的编写:
![](https://img.haomeiwen.com/i11045655/2d8f3575fc36dec4.png)
![](https://img.haomeiwen.com/i11045655/5f2d5a5ceccc88d1.png)
![](https://img.haomeiwen.com/i11045655/9b055176c1b4e4fa.png)
5.编写管理器程序文件url_manager.py
![](https://img.haomeiwen.com/i11045655/eb5628157a777455.png)
6.编写管理器程序文件html_downloader.py
![](https://img.haomeiwen.com/i11045655/cdf11934c483c647.png)
7.编写解析器程序文件html_parser.py
![](https://img.haomeiwen.com/i11045655/81c1ccc6d910d6d1.png)
![](https://img.haomeiwen.com/i11045655/c55558acdde66aa2.png)
![](https://img.haomeiwen.com/i11045655/43e26a7af445a426.png)
8.编写输出程序文件html_outputer.py
![](https://img.haomeiwen.com/i11045655/bfe35893db24d2dc.png)
9.结果
![](https://img.haomeiwen.com/i11045655/93cfc1dc318c79cd.png)
10.总结
这只是最简单的爬虫
还有如下方面的爬虫需要深入研究
![](https://img.haomeiwen.com/i11045655/e62c93c5983dc0bf.png)