python分布式爬虫搜索引擎实战-0-目录索引
2017-03-26 本文已影响602人
天涯明月笙
目录:
技术选型
scrapy 可以加入requests和beautifulsoup
scrapy基于twisted,性能好
方便扩展,有很多内置功能
内置的css
和xpath selector
很方便,速度快
网页分类
- 静态网页
- 动态页面
- webservice(restapi)
爬虫能做什么?
- 搜索引擎:百度 垂直领域搜索引擎(只爬某领域)
- 推荐引擎:今日头条
- 机器学习的数据样本
- 数据分析(金融数据分析) 舆情分析