数据分析项目总结
这是篇后记,正文在这里:除了IKEA和MUJI,床品还可以考虑这两家 | 基于数据的购买决策。
这篇是整个数据分析项目的过程和问题总结,以后再做当能有所改进,也为更多刚上路的新手铺个路。
1.立项
作为一个合作项目,我们希望双方都能从项目中有所收益,对各自的工作生活能有实际帮助,过程很纠结, 反转了几次:
a.开始想了解公众号的现状。
从搜索公众号的分析开始,随着调研的深入,发现已经有网站对公众号做了各种排行,数据详尽,品类齐全,但真正有价值可以做分析的数据,比如关注公众号的读者数据似乎很难获得。
b.转而浏览了很多公开的数据源,想把重点放在数据分析上。
海量数据,既多且杂,感兴趣的很多,但要分析这些数据,要么缺少商业背景,要么缺乏领域知识, 如果只是分析既有的商业结论而无法深入挖掘数据背后的信息,只为了熟悉项目流程就有点可惜,还是希望能解决实际问题。
c.最后还是聚焦到了各自的工作和生活。
家居本身是日常相关, 也正值友人家里装修来咨询,发现从来没有站在行业外的视角去真正了解大家在这方面的需求,所以和小春讨论之后,最终定了这个主题,做家居产品的数据分析。
项目范围已定,但是具体分析的角度直到小春抛出问题之前都没仔细想过,或许会通过数据分析发现一些有意思的商业观察,所以最初想从行业角度来分析,但小春提出作为一个普通消费者应该会想更多知道行业内不被大家所了解的专业知识,因此,最终决定站在一个普通消费者的视角,用数据分析指导大家购买到合适的家居用品。至此,目的才清晰具体起来,项目才终于立项。
历经转折的一些思考:
如何找项目做分析?
先问自己:有什么问题需要解决?
关键词不是问题,而是解决。有什么需求没有满足,要提供解决方案,可以通过数据分析的手段来达成。
虽然我们做项目的目的就是为了学习数据分析,但是实际应用中,无论是商业还是个人,目的都是为了解决问题,而数据分析只是实现目的的手段,但我们常常颠倒了目的和手段,把数据分析当做了目的,为了做数据分析而做数据分析。
这也可以回答有同学说没有分析思路的疑问。因为没有目的,没有要解决的问题,才会没有思路。如果知道要解决什么问题,自然就会想各种办法手段工具来找解决方案,而数据分析就是有效的解决方案之一,数据思维也多提供了一种解决思路。
比如最开始我们想要分析公众号,这其实是个范围而不是目的。分析公众号是为了达到什么目的?要解决什么问题?
如果是想自己做个公众号,开始阶段更关键的是找目标用户做调研,如《精益创业》里指导的,先了解你想做的产品是不是有真实需求。然后有目的的找同类型的公众号做调研,采集具体的数据指标,比如阅读量,点赞数,内容,这样就有具体的目标来分析了。不过公众号的用户数据依然不是公开数据,获取很困难,所以当初想以这个项目做数据分析确实不是一个好选项。
后来立项的主题一直是围绕如何帮助大家做购买决策来做的,目的很明确,最后的结论能直接指导决策。
2. 数据采集。
立项就这么多转折,数据采集也碰到各种问题。
家居有众多品类,首先想从常用的纺织大品类开始做,包括床品靠垫窗帘桌布等等,但实际数据收集过程中发现困难多多,数据不全,格式不一,反复采集,走了不少弯路。时间有限,最终将范围圈定在被套这个主要品类,从小数据开始尝试完成一个数据分析的流程。
虽说用的是采集软件,门槛已经比较低了,但是依然历经N次反复才得到分析所用数据,完成了软件从入门到精通的学习过程。
问题记录如下:
a.不同网站的分类方式和结构都不同,规则不通用。
b.发现其中一个网站整个品类都无法爬取,适合初学者的向导模式不可行,开始学习高级模式。
c.尝试高级模式后发现采集的数据不完整,只有第一页数据,翻页有问题,只能分开采集再合并,有些是整个指标都没有采集到,还有采集错误,遗漏缺失。
d.为了解决采集中的问题,从头学习高级模式的教程,换成firefox,定位规则,补缺失的数据,定不了位就手动定位。然后过程就变得奇慢无比,一百多条数据超过10小时才采集完。
e.学习完高级教程后发现循环爬取依然没能搞定,搜遍论坛才发现一个案例,需要自己写代码,还给出了Xpath教程的链接。看了案例的网页的代码想依样画葫芦,很不幸,完全看不懂,要是学习完再做项目,决计是来不及的,所以只好改用手动采集,幸好数据量不多,但依然很费时。
f.在之后清洗整理数据的时候还是发现需要的数据不全,反复补采集。
第一次做项目没什么全局概念,比如一开始没想到会用到图片,觉得这个不用分析,后来发现要作图,只好再重新采集。在数据量不大的时候就应该把相关的数据都采集下来,然后整理的时候再剔除。数据量如果非常大的时候就可以先思考好可能会分析的数据字段,抽样然后再采集。
刚开始采集源调研做的也不够,不知道MUJI有天猫店,早知道就直接天猫采集了,格式也可以和ZARA一致,减轻数据整理的工作。所以事先多数据源收集信息也是要考虑的。
3.数据清洗。
这部分的耗时超出想象,总算理解了Tiger在课上说清洗数据要占到项目70%-80%的时间,真的不是夸张。
四个网站采集下来的数据结构格式完全不同,要能放在一起比较,要做的工作有很多,具体步骤已经在正文中写了,看起来还比较有条理,但实际过程是采集和清洗反复交替的。
几个问题:
a. 由于文字型数据偏多,描述极度不统一,发现少数据再返回去做补采。然后再对比几份数据,格式也完全不同,前面整理好的字段要重新调整归类。而有些整个字段都数据缺失,为了数据的完整性只能人工看图完成判断。
b.数值型数据的价格字段是个复杂的综合指标,牵涉到几乎所有其他字段,虽然大致知道不同因素影响价格的程度,但是缺乏统计学知识导致想做个权重系数量化一下也就只停留在想做的阶段。
c.本来还想采集个评论来看下品牌反馈,但是数据很少,不像互联网行业的数据易得。
d.整理工具也是纠结过的。
根据 DrFish 关于项目的指导先用python尝试了一下数据清洗,调整字段属性,统一格式,但是各种报错,碰到问题就要搜索解决方案,工作量巨大。
后来觉得这种文字类型的小数据量数据,又是四份数据同时比较,反而是excel效率更高,提取调整各种列,修改字段,直观明了。
但是分析密度和价格这种数值型数据的时候,用简单的代码describe()就能直接跳出一系列的统计数,比如计数,均值,中位数等等,明显比excel里用函数来的高效,虽然高手也可以写个宏让excel执行,但是有这个时间还不如学习python,毕竟大数据还是和python更配。
目前这些数据量,工具方面灵活运用最好,excel和python哪个高效用哪个。
整个过程做下来其实有点崩溃,可能是觉得和预期有反差, 本来觉得数据分析是个提升效率指导决策的利器,但是整个过程还需要人工看图判断手动整理,依然非常耗时。思考之后觉得python不会用也是主要原因,之前认为python是工具,重点应该是数据分析,现在觉得工具用好了确实可以提高效率,投入工具学习的时间还是很有必要的。正好看到同学 鬼宇书生 的文章 利用Python处理Excel数据总结 受到启发,这也是个入门的好方法,工具还是为目的服务,不要太过纠结才好。
不过数据清洗虽然是个基础工作,重要性不言而喻,就像地基打的不好,上面的建筑怎么可能会稳。虽然耗时耗力,终于也没有半途而废,尽量保证了数据的完整便于后面的分析。
4.数据分析
数据整理完觉得大部头工作完成,应该能轻松一些了,其实也不如想象中容易完成。
开始列提纲整理思路,一边写报告,一边分析数据准备结论。但是写作过程中会发现一些思考不周的地方。比如尺寸和价格的对应关系,尺寸差4%,最初就按照4%的差距来比较价格的,但是后来写的时候才意识到4%只是面料差异,但是我们比较的销售价格的组成很复杂,除了面料,还有各种加工费,管理费,利润都会相应增加,成本增加之后再加上各种运输物流营销税费到进店价格,3~6倍的定倍率很正常,所以最后按照15%的差异来估算价格是非常保守的了,有点蝴蝶效应,如果仔细核算差异应该还是有点差距的。思虑不周就容易导致结果出现偏差。值得警惕。
同时小春在准备可视化的图。人脑识图比文字印象更深刻,记得也更牢,作为家居品的购买决策,颜色和花型都是直观性非常强的指标,视图的呈现就很重要了,特别感谢小春用了不同的软件出的图效果都非常棒,尤其产品全局图。
但是出图的时候会发现先前整理完的数据其实并没有考虑可视化软件所需要的分类,所以作图的时候数据还是经过了小春的二次整理。分析思路在写作中也是不停调整,不同字段,不同组合,一边写一边修改,导致小春作图也一直跟着调整。幸而沟通无碍,几经调整最后完成图文结合。
5.其他
商业应用 or 个人应用?
项目期间,正好在看群里推荐的《精益数据分析》,连带《精益创业》一起看了,发现数据分析更多的使用场景还是企业应用。各种精益数据分析都基于企业生存需要,手握大数据的企业才是用数据的最大需求方,书里细分了不同阶段的企业,不同种类的企业,分别给出了不同的数据跟踪指标,完全是为企业和创业者而写的实践手册。
这时正值同学陆续出项目报告,数据量也都很大,做的都是商业应用数据分析,再回头看我们的项目,消费者视角且数据量之小一度怀疑我们是不是做偏题了。看到有文章说10亿以上的数据才能叫做大数据,百万级的都算是小数据了,那这个项目连迷你数据都还差好远。
不过即使是小数据小场景小应用,能通过数据分析为自己生活决策做点帮助和贡献也是极好的。这个项目就算是小数据的分析实践初尝试,因为离大数据的要求差远了,统计学缺失,python应用无能,数据求索之路才刚刚开始而已。
曾鸣在得到的智能商业20讲中说,并不是开个天猫店就算互联网企业了,而是看企业的核心产品和业务有没有在线上。互联网的本质是有没有联结用户,有没有和用户完成互动。按照这个定义,家居行业和服装行业还是有差距,更遑论互联网行业和联结了,现在数据收集和数据量都是问题,但想要更深入了解行业,连接消费者,依然要基于互联网,商业数据分析也还是依托商业环境。之后想尝试用同样一份数据,换个角度,从行业来看这些成功的家居品牌,研究一下数据背后体现出的不同经营理念。同一份数据可以挖掘不同的信息,换个分析角度就有不同的观察结论。
项目进度
整个项目前后算起来花了2个月,远超给定的1个月时限,要是真的商业项目,估计我们都要下岗了,哪个商业决策能等你一个月?
因为这是第一次做数据分析项目,找项目,学习新软件,没有分析思路,一边摸索一边反复一边改进一边推行,就是个试错--返回--试错--进步的过程,实际操作下来数据清洗的时间是占比最大的,在项目进度安排上有个明确合理的计划会不容易焦虑。
开始的时候就可以有目的的思考数据分析的角度,列写作提纲,减少后期的反复和调整。当然随着写作的深入,会发现更多有意思的结论,但如果有和认知不同的结论要多看一遍数据,再找找数据之间的联系,最后记得用全局视角再过一遍可能会有新发现。
最后是文档和图片的命名归档,按照作用,时间,版本命名的方式更容易查找。 用python可能没这个问题,用excel文件就多了,4个品牌,每个品牌都有原始数据,或者补采集的原始数据,整理好的数据,还有各种云图可视化软件需要的文件数据都不一样。写作也需要各个步骤的图片,养成随时记录进度的好习惯,最后的报告写起来会更省力。
整个项目过程的流水就这样,错误很多,收获也不少,谨以此文留个记录。
社群日益壮大,新来的同学越来越强,初学者的学习记录,欢迎探讨指导,如能对同样初学的同学偶有一点参考和启发,那也是好的。
如果不幸你也开始入坑数据分析之路,扫一扫就是了。
泰阁志公众号