爬虫相关科普

2018-12-09  本文已影响0人  胖达_4b7e

爬虫分类

https://www.kancloud.cn/ziyifeng/seo_one/204439

(1)通⽤
一些种子 URL扩充到整个Web,什么数据都要,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据
(2)聚焦
⽬目标明确
比通用增加了链接评价模块以及内容评价模块
(3)增量
比如,从第⼀页请求到最后⼀页, 只爬行新产生的
(4)Deep Web
表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的 Web 页面。Deep Web 是不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。例如那些用户注册后内容才可见的网页。

robots

robots.txt文件
写明了希望那些不爬, 只能禁止通用爬虫 就是搜索引擎
比如简书的 https://www.jianshu.com/robots.txt
网站url 加上/robots.txt就能看到

爬虫的步骤

IP分类:

透明:直接看到我的真实的ip
匿名:看不到我ip, 知道我用了代理
⾼匿:看不到我真实ip 还不知道我用了代理

上一篇 下一篇

猜你喜欢

热点阅读