爬取ajax异步网页数据
2017-03-11 本文已影响54人
苟雨
ajax是通过javascript访问服务器获得数据的方式,数据并不会直接体现在html源码中,而且很大可能在源码中不能发现数据访问的链接,这就很棘手了,
这里以苹果的招聘主页为例 https://jobs.apple.com/us/search
它的jobs list是使用ajax加载的,
打开Chrome开发者工具,
View > Developer > Developer Tools
选择Network选项然后选取XHR,
屏幕快照 2017-03-11 下午6.48.33.png点击刷新,就会看到有 .json 或者 .xml文件这就是我们寻找的数据文件
在Response 中是数据内容,在Headers中可以发现数据文件的URL,
headers.png然后编写脚本抓取数据就行了,
可以参考以前的爬取58上的手机号码