了解爬虫1
2020-06-08 本文已影响0人
Ancestor楠
crapy爬虫=数据采集
简单:静态网站
难:动态、加密(逆向)、验证码(滑动、点击、倒立)
数据为王:
数据怎么产生:
1、用户产生数据---朋友圈、聊天记录
2、政府统计数据---村-县-市-省-国家统计局
3、数据管理公司---聚合数据
4、爬虫数据---注意什么能爬,什么不能爬
什么是爬虫
一个爬取web或者App数据的程序
bd是最大的爬虫
爬虫根据人工智能文字识别、图片识别
一个流程
1、定位URL可以简单处理一下URL的参数
https://www.baidu.com/s?ie=UTF-8&wd=%E6%AC%A7%E8%B1%AA
2、分析URL
https://www.baidu.com/s?wd=%E6%AC%A7%E8%B1%AA&pn=10
3、发送请求
通过程序模拟浏览器发送请求
4、解析数据
1)根据你的需要提取有用的数据
web共同点
1、每个网页都有唯一的URL(资源定位符)
2、网页一定是有HTML、css、js组成
3、网页数据都是通过http或者https传输的
爬虫数据能随便爬。。?
robot.txt协议规定哪些能爬;哪些不能爬
个人可以不遵守
爬虫本月要学的:
1、网络库,urllib或urllib在py3统一叫urllib.request requests
2、解析库、正则、xpath、bs4、jsonpath、selenium(测试)
3、多任务爬虫
4、Scrapy框架、Scrapy-redis分布式爬虫
通用爬虫:
不针对某一类数据进行爬虫
聚焦爬虫:
针对某一类数据进行爬虫
反爬虫:
1、区分人的访问还是爬虫的访问
User-Agent:用来区分浏览器的
2、访问频率 封IP
3、通过Cookie ---登录状态保持
4、加密token
最终是一个时间与成本的问题