京东数据采集整理标准化流程介绍
2018-03-22 本文已影响40人
39e3bc841e3d
用电商数据采集软件采集过数据的朋友就应该很清楚,我们输入指令通过采集软件将我们需要的淘宝、天猫、京东等平台数据采集回来后,其实里面包含了很多配件及其他不相关的产品。如果是需要需要用这批数据做产品的分析我们需要删除配件,整理品牌、型号。整理这过程极其枯燥乏味,而且费眼力,很多客户虽然花钱买了原始数据,但是很不愿意做这个整理工作。antuodata针对目前市场需求专门成立了一个清洗数据小组,培训了一支专业的团队来做这件事情。下面以京东家电品类为例跟大家一起学习下他们是如何做数据清洗工作的。
首先将采集好的京东家电三级分类(具体到产品品类)原始数据从采集软件里面逐个导出到EXCEL表格里面。如图
然后打开每个表格进行整理,整理内容包含:规范品牌,规范型号,剔除配件及不相关产品。比如品牌统一格式:英文/中文,页面属性没有标记品牌的打开页面的详情页去查找品牌信息,型号整理方式与品牌整理一样,使品牌型号无空白,无错误情况。这样的数据分析起来才会更准确。
整理好品牌、型号后通过url再导入到大数据系统,这样数据就变成了我们自己的了。然后每天爬取网站新增的URL,继续上面操作。同时大数据系统里面的数据每天进行采集更新销量、评价量、价格以及活动情况等信息。这样不管客户什么时候要数据,我们直接从系统导出都是已整理好的,避免了重复整理工作。
如果大家有需要这方面数据的需求欢迎联系讨论www.antuodata.com