爬虫简介
2018-06-11 本文已影响0人
sszhang
MOOC 北京理工大学嵩教授 视频整理
https://www.youtube.com/watch?v=PxMWOcsTKyk&list=PL0UXr5Kg5RSEZx6sxYtHVUBN4aePAMSQS
目录
第一章 Requests库
第二章 BeautifulSoup库
第三章 Re库
第四章 Scrappy库
案例一:京东商品页面的爬取
案例二:亚马逊商品页面的爬取
案例三:百度260搜索关键词提交
案例四:网络图片的爬取和储存
网络爬虫的限制
来源审查: 判断User-Agent进行限制
检查来访HTTP协议头的User-agent域,只响应来自服务器或者友好爬虫的访问
发布公告: Robots协议
告知所有爬虫的爬取策略,要去爬虫遵守