python爬虫攻防

python3爬虫--入门篇0--导读

2019-01-07  本文已影响2人  布口袋_天晴了

python爬虫,上手快,精通需要更多的时间。—— 向爬虫工程师进军!!!

1.小白的基础?

Python的基本常识:变量、字符串、列表、字典、元组、语法等,已经掌握!网络请求的基本原理和网页结构(如HTML、XML)等,已经略有接触或了解。     ——基础达标

2.爬虫领域需要学些什么?

Scrapy框架+redis分布式爬虫+ES问答搜索+ diango网站快速搭建


其他相关知识



一、开发环境搭建:

1.IDE------pychram

2.数据库------mysql、redis、elasticsearch

3.开发环境------virtualenv(虚拟环境)

二、技术选型:

scrapy框架 + requests

requests  vs  beautifulsoup  因为scrapy框架中内置有css和xpath selector,该方法可以替代beautifulsoup的功能,scrapy提供的方法比beautifulsoup方法,速度上有很大的优势。

三、网页分类

1.静态网页    

2.动态页面

3.webservice(rest api)

四、爬虫能做什么?

1.搜索引擎------百度、Google、垂直领域搜索引擎

2.推荐引擎------今日头条

3.机器学习的数据样本,训练模型

4.数据分析、舆情分析

上一篇 下一篇

猜你喜欢

热点阅读