python3爬虫--入门篇0--导读
2019-01-07 本文已影响2人
布口袋_天晴了
python爬虫,上手快,精通需要更多的时间。—— 向爬虫工程师进军!!!
1.小白的基础?
Python的基本常识:变量、字符串、列表、字典、元组、语法等,已经掌握!网络请求的基本原理和网页结构(如HTML、XML)等,已经略有接触或了解。 ——基础达标
2.爬虫领域需要学些什么?
Scrapy框架+redis分布式爬虫+ES问答搜索+ diango网站快速搭建
其他相关知识
一、开发环境搭建:
1.IDE------pychram
2.数据库------mysql、redis、elasticsearch
3.开发环境------virtualenv(虚拟环境)
二、技术选型:
scrapy框架 + requests
requests vs beautifulsoup 因为scrapy框架中内置有css和xpath selector,该方法可以替代beautifulsoup的功能,scrapy提供的方法比beautifulsoup方法,速度上有很大的优势。
三、网页分类
1.静态网页
2.动态页面
3.webservice(rest api)
四、爬虫能做什么?
1.搜索引擎------百度、Google、垂直领域搜索引擎
2.推荐引擎------今日头条
3.机器学习的数据样本,训练模型
4.数据分析、舆情分析