数据工程师数据咖资源干货

爬取ajax异步网页数据

2017-03-11  本文已影响54人  苟雨

ajax是通过javascript访问服务器获得数据的方式,数据并不会直接体现在html源码中,而且很大可能在源码中不能发现数据访问的链接,这就很棘手了,

这里以苹果的招聘主页为例 https://jobs.apple.com/us/search
它的jobs list是使用ajax加载的,
打开Chrome开发者工具,
View > Developer > Developer Tools

developer_tools.png

选择Network选项然后选取XHR,

屏幕快照 2017-03-11 下午6.48.33.png

点击刷新,就会看到有 .json 或者 .xml文件这就是我们寻找的数据文件

在Response 中是数据内容,在Headers中可以发现数据文件的URL,

headers.png

然后编写脚本抓取数据就行了,
可以参考以前的爬取58上的手机号码

上一篇下一篇

猜你喜欢

热点阅读