2018-11-03-2-scrapy - 爬虫准备 - 虾米音

2018-11-03  本文已影响0人  Python岳

爬一个网站,首先得分析目标内容在什么地方,目标内容的上一级内容如何获取。

图片为虾米网数据路线分析,中间相应的网址上方的数字为,代码编写时候的顺序,按照这个顺序去写爬虫代码,思路会清晰很多。

虾米网数据来源分析

为什么图里提到内容的时候,说是ajax?
一般来说需要点击按钮才能显示更多内容,或者需要下拉才能显示更多数据内容,这个一般为ajax——JavaScript+xml(具体看百科ajax)。一般数据都会在浏览器的开发者工具(F12),XHR里面,数据结构为json。
这里会有坑,有些数据需要登录后才能获取到数据,有些数据嘛,直接是在网站源代码中间,JS包含。

ajax数据,不懂的看这里:https://blog.csdn.net/weixin_36279318/article/details/79624353

先不管项目创建后的items要如何写,settings.py要如何设置,pipelines.py要怎么折腾。
你就先按我上面说的,分析一下网站结构。下一文,介绍一下xiami网(xiami.com)最终专辑页面的爬虫函数写法。

上一篇下一篇

猜你喜欢

热点阅读