python Ajax数据的提取

2018-09-17  本文已影响0人  有胸肌的男生

1,什么是ajax

ajax全称 Asynchronous JavaScript and XML,就是异步的JavaScript和XML,不是一种编程的语言,而是利用JavaScript在保证页面不被刷新的情况下,页面链接不改变的情况下与服务器交换数据并更新网页的技术

2,那些网站用到了ajax

像36氪,今日头条等等

3,基本原理

发送Ajax请求到网页更新的这个过程,可以简单分为以下的三步:

1,发送请求

2,解析内容

3,渲染网页

4,Ajax 分析方法

1,查看请求

我们已chrome浏览器为大家介绍,我们以今日头条来给大家介绍,https://www.toutiao.com/,在搜索栏里面搜索街拍,然后如图找到每个标题栏的地址

不停的往下拉,观看图片,这个时候回发现,浏览器中的网址没有发生变化,但是页面在不断的刷新,这个就是AJAX了

下面我们来看下这些个是怎么实现也没刷新的

我们可以清楚的看到这个URL 才是爬取图片的地址,这个URL的构成除了offset在变化,其他的都是一样的,那么我们在构造URL的时候就方便很多了,用正则匹配一下就可以了。

剩下我们要爬取的图片就更加的简单了

剩下就是通过自己的爬虫技术,爬取自己的所需要的内容

上一篇下一篇

猜你喜欢

热点阅读