数据采集数据分析首页投稿(暂停使用,暂停投稿)@产品

不用代码,10分钟采集58同城二手车数据信息

2018-02-07  本文已影响311人  书生婉悠

最近得空把之前的一些案例稍微整理一下,之前做的案例有:

案例1:汽车之家网站奔驰宝马宝马信息采集

案例2:天涯论坛各个板块文章信息采集

案例3:豆瓣电影、读书板块信息数据和评论数据采集

案例4:淘宝茶叶数据采集、竹浆纸数据采集、充电宝数据采集

案例5:京东小米手机数据采集、京东众筹商品数采集

案例6:大众点评泉州美食数据采集、58同城泉州租房信息数据采集

案例7:咪蒙、韩寒、郭敬明微博粉丝及评论采集

案例8:舌尖上的泉州、李叫兽、咪蒙等20个公众号文章、阅读数据采集

之前在简书上对部分内容做了分析,有兴趣都可以去看看简书的文章:

案例1:咪蒙文章特点分析-为什么咪蒙文章那么受欢迎

案例2:京东商城加湿器产品销售分析

案例3:京东众筹成功影响因素分析

案例4:泉州美食、租房情况分析

案例5:淘宝面膜产品分析

案例6:铁观音茶叶市场前景和竞争分析

那么今天就介绍一下如何不用代码,10分钟采集58同城上二手车数据,我们需要的数据包括车型、使用时间、油量、使用里程、价格等维度信息

第一步:创建采集任务

创建采集任务,将要采集的网站URL复制粘贴到输入框中,点击“保存网址”

第二步:提取需要的信息

1、选择需要的采集范围,让需要的信息呈现蓝色,点击鼠标即可选中

2、点击鼠标后,在弹出来的对话框选择“创建一组元素”即可

3、经过2次的范围选择之后,点击创建列表完成,就得到了需要的信息范围,得到如下图:

4、点击循环,即可获得页面的全部信息

第三步:提取目标信息

1、将鼠标移到标题上,待选择的标题变成蓝色后,点击鼠标,得到如下图对话框,选择“抓取这个元素的文本”

2、此时需要的信息出现在右侧的信息框中,如果需要对字段名称修改,点击即可修改。

3、对于需要的其他信息也是按照类似的方法获取,最终:

第四步:设置翻页和AJAX设置

1、将鼠标移到页面底端的翻页处,把鼠标放在“下一页”上,变成蓝色后,即可点击选中:

2、在弹出的对话框中选择“循环点击下一页”即可建立好翻页,可以将后面几页的信息自动选中。

3、然后鼠标选中左边规则中的“点击翻页”,在左边的高级选项中点开下拉页面,在“AJax加载”一项中勾选AJax加载数据,超时2秒。

注:AJAX即延时加载、异步更新的一种脚本技术,通过在后台与服务器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。

表现特征:

1.点击网页中某个选项时,大部分网站的网址不会改变;

2.网页不是完全加载,只是局部进行了数据加载,有所变化

第五步:数据采集及导出

1、Ajax设置完成之后,再重新启动本地采集

2、采集完成后,会跳出提示,选择“导出数据”选择“合适的导出方式”,将采集好的数据导出这里我们选择excel作为导出为格式,数据导出后如下图

上一篇下一篇

猜你喜欢

热点阅读