python Ajax数据的提取
2018-09-17 本文已影响0人
有胸肌的男生
1,什么是ajax
ajax全称 Asynchronous JavaScript and XML,就是异步的JavaScript和XML,不是一种编程的语言,而是利用JavaScript在保证页面不被刷新的情况下,页面链接不改变的情况下与服务器交换数据并更新网页的技术
2,那些网站用到了ajax
像36氪,今日头条等等
3,基本原理
发送Ajax请求到网页更新的这个过程,可以简单分为以下的三步:
1,发送请求
2,解析内容
3,渲染网页
4,Ajax 分析方法
1,查看请求
我们已chrome浏览器为大家介绍,我们以今日头条来给大家介绍,https://www.toutiao.com/,在搜索栏里面搜索街拍,然后如图找到每个标题栏的地址
不停的往下拉,观看图片,这个时候回发现,浏览器中的网址没有发生变化,但是页面在不断的刷新,这个就是AJAX了
下面我们来看下这些个是怎么实现也没刷新的
我们可以清楚的看到这个URL 才是爬取图片的地址,这个URL的构成除了offset在变化,其他的都是一样的,那么我们在构造URL的时候就方便很多了,用正则匹配一下就可以了。
剩下我们要爬取的图片就更加的简单了
剩下就是通过自己的爬虫技术,爬取自己的所需要的内容