了解爬虫1

2020-06-08 本文已影响0人 Ancestor楠

crapy爬虫=数据采集

简单：静态网站

难：动态、加密（逆向）、验证码（滑动、点击、倒立）

数据为王：

数据怎么产生：

1、用户产生数据---朋友圈、聊天记录

2、政府统计数据---村-县-市-省-国家统计局

3、数据管理公司---聚合数据

4、爬虫数据---注意什么能爬，什么不能爬

什么是爬虫

一个爬取web或者App数据的程序

bd是最大的爬虫

爬虫根据人工智能文字识别、图片识别

一个流程

1、定位URL可以简单处理一下URL的参数

https://www.baidu.com/s?ie=UTF-8&wd=%E6%AC%A7%E8%B1%AA

2、分析URL

https://www.baidu.com/s?wd=%E6%AC%A7%E8%B1%AA&pn=10

3、发送请求

通过程序模拟浏览器发送请求

4、解析数据

1）根据你的需要提取有用的数据

web共同点

1、每个网页都有唯一的URL（资源定位符）

2、网页一定是有HTML、css、js组成

3、网页数据都是通过http或者https传输的

爬虫数据能随便爬。。？

robot.txt协议规定哪些能爬；哪些不能爬

个人可以不遵守

爬虫本月要学的：

1、网络库，urllib或urllib在py3统一叫urllib.request requests

2、解析库、正则、xpath、bs4、jsonpath、selenium（测试）

3、多任务爬虫

4、Scrapy框架、Scrapy-redis分布式爬虫

通用爬虫：

不针对某一类数据进行爬虫

聚焦爬虫：

针对某一类数据进行爬虫

反爬虫：

1、区分人的访问还是爬虫的访问

User-Agent：用来区分浏览器的

2、访问频率封IP

3、通过Cookie ---登录状态保持

4、加密token

最终是一个时间与成本的问题