爬虫相关科普

2018-12-09 本文已影响0人胖达_4b7e

爬虫分类

https://www.kancloud.cn/ziyifeng/seo_one/204439

(1)通⽤
一些种子 URL扩充到整个Web，什么数据都要,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据
(2)聚焦
⽬目标明确
比通用增加了链接评价模块以及内容评价模块
(3)增量
比如,从第⼀页请求到最后⼀页, 只爬行新产生的
(4)Deep Web
表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的 Web 页面。Deep Web 是不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的 Web 页面。例如那些用户注册后内容才可见的网页。

robots

robots.txt文件
写明了希望那些不爬, 只能禁止通用爬虫就是搜索引擎
比如简书的 https://www.jianshu.com/robots.txt
网站url 加上/robots.txt就能看到

爬虫的步骤

1.找到目标的url
比如
地址栏是
https://www.google.com.hk/search?q=美女&oq=美女&aqs=chrome..69i57.4673j1j7&sourceid=chrome&ie=UTF-8
但是有冗余其实
https://www.google.com.hk/search?q=美女就够了
看地址栏看html能看到的是最简单的, 不一定有这么简单
2.发送请求获取数据(java go python)
3.解析获取到的数据(精确数据)
下载视频,可能被分割了, 图片, 音频
可能需要回到1
1. 数据持久化 xml mysql mogodb

IP分类:

透明:直接看到我的真实的ip
匿名:看不到我ip, 知道我用了代理
⾼匿:看不到我真实ip 还不知道我用了代理

爬虫相关科普

爬虫分类

robots

爬虫的步骤

IP分类:

猜你喜欢

热点阅读