爬虫简介

2018-06-11 本文已影响0人 sszhang

MOOC 北京理工大学嵩教授视频整理
https://www.youtube.com/watch?v=PxMWOcsTKyk&list=PL0UXr5Kg5RSEZx6sxYtHVUBN4aePAMSQS

网络爬虫的限制

来源审查: 判断User-Agent进行限制

检查来访HTTP协议头的User-agent域，只响应来自服务器或者友好爬虫的访问

发布公告: Robots协议

告知所有爬虫的爬取策略，要去爬虫遵守