python从入门到精通python 实战实验室

python分布式爬虫搜索引擎实战-0-目录索引

2017-03-26  本文已影响602人  天涯明月笙

目录:

技术选型

scrapy 可以加入requests和beautifulsoup
scrapy基于twisted,性能好
方便扩展,有很多内置功能
内置的cssxpath selector很方便,速度快

网页分类

  1. 静态网页
  1. 动态页面
  2. webservice(restapi)

爬虫能做什么?

  1. 搜索引擎:百度 垂直领域搜索引擎(只爬某领域)
  1. 推荐引擎:今日头条
  2. 机器学习的数据样本
  3. 数据分析(金融数据分析) 舆情分析
上一篇 下一篇

猜你喜欢

热点阅读