《零基础上手Python爬虫系列》 - 13 实战:原生爬虫
2020-02-18 本文已影响0人
聂云⻜
本篇目前为视频学习的笔记备注,待更新,本周内会整理完毕
分析抓取目的确定抓取页面
分析每一类主播的排行
抓取观看人数
整理爬虫常规思路
原理都是从html中提取有用的信息
断点调试
找最近的可以唯一标识的作为正则的定界符
HTML结构分析基本原则二条
选择可闭合的标签
行数10 - 20行之间,尽量不要超过30行
快速提炼内容
本篇目前为视频学习的笔记备注,待更新,本周内会整理完毕
分析抓取目的确定抓取页面
分析每一类主播的排行
抓取观看人数
整理爬虫常规思路
原理都是从html中提取有用的信息
断点调试
找最近的可以唯一标识的作为正则的定界符
HTML结构分析基本原则二条
选择可闭合的标签
行数10 - 20行之间,尽量不要超过30行
快速提炼内容