《零基础上手Python爬虫系列》 - 13 实战:原生爬虫

2020-02-18  本文已影响0人  聂云⻜

本篇目前为视频学习的笔记备注,待更新,本周内会整理完毕

分析抓取目的确定抓取页面

分析每一类主播的排行

抓取观看人数


整理爬虫常规思路

原理都是从html中提取有用的信息

断点调试

找最近的可以唯一标识的作为正则的定界符


HTML结构分析基本原则二条

选择可闭合的标签

行数10 - 20行之间,尽量不要超过30行


快速提炼内容

上一篇下一篇

猜你喜欢

热点阅读