2018-11-03-2-scrapy - 爬虫准备 - 虾米音

2018-11-03 本文已影响0人 Python岳

爬一个网站，首先得分析目标内容在什么地方，目标内容的上一级内容如何获取。

图片为虾米网数据路线分析，中间相应的网址上方的数字为，代码编写时候的顺序，按照这个顺序去写爬虫代码，思路会清晰很多。

虾米网数据来源分析

为什么图里提到内容的时候，说是ajax？
一般来说需要点击按钮才能显示更多内容，或者需要下拉才能显示更多数据内容，这个一般为ajax——JavaScript+xml（具体看百科ajax）。一般数据都会在浏览器的开发者工具（F12），XHR里面，数据结构为json。
这里会有坑，有些数据需要登录后才能获取到数据，有些数据嘛，直接是在网站源代码中间，JS包含。

ajax数据，不懂的看这里：https://blog.csdn.net/weixin_36279318/article/details/79624353

先不管项目创建后的items要如何写，settings.py要如何设置，pipelines.py要怎么折腾。
你就先按我上面说的，分析一下网站结构。下一文，介绍一下xiami网（xiami.com）最终专辑页面的爬虫函数写法。

2018-11-03-2-scrapy - 爬虫准备 - 虾米音

猜你喜欢

热点阅读