了解爬虫1

2020-06-08  本文已影响0人  Ancestor楠

crapy爬虫=数据采集

简单:静态网站

难:动态、加密(逆向)、验证码(滑动、点击、倒立)

数据为王:

数据怎么产生:

1、用户产生数据---朋友圈、聊天记录

2、政府统计数据---村-县-市-省-国家统计局

3、数据管理公司---聚合数据

4、爬虫数据---注意什么能爬,什么不能爬

什么是爬虫

一个爬取web或者App数据的程序

bd是最大的爬虫

爬虫根据人工智能文字识别、图片识别

一个流程

1、定位URL可以简单处理一下URL的参数

https://www.baidu.com/s?ie=UTF-8&wd=%E6%AC%A7%E8%B1%AA

2、分析URL

https://www.baidu.com/s?wd=%E6%AC%A7%E8%B1%AA&pn=10

3、发送请求

通过程序模拟浏览器发送请求

4、解析数据

1)根据你的需要提取有用的数据

web共同点

1、每个网页都有唯一的URL(资源定位符)

2、网页一定是有HTML、css、js组成

3、网页数据都是通过http或者https传输的

爬虫数据能随便爬。。?

robot.txt协议规定哪些能爬;哪些不能爬

个人可以不遵守

爬虫本月要学的:

1、网络库,urllib或urllib在py3统一叫urllib.request   requests

2、解析库、正则、xpath、bs4、jsonpath、selenium(测试)

3、多任务爬虫

4、Scrapy框架、Scrapy-redis分布式爬虫

通用爬虫:

不针对某一类数据进行爬虫

聚焦爬虫:

针对某一类数据进行爬虫

反爬虫:

1、区分人的访问还是爬虫的访问

User-Agent:用来区分浏览器的

2、访问频率 封IP

3、通过Cookie  ---登录状态保持

4、加密token

最终是一个时间与成本的问题

上一篇下一篇

猜你喜欢

热点阅读