分析之路的思考
2019-04-04 本文已影响96人
巴拉巴拉_9515
“路漫漫其修远兮,吾将上下而求索”,分析之路道阻且长。
就数据分析师的技能点发表一些个人想法。我把这个过程划分为三个层面(并无高低之分,只是面向不同)。
中间层面
往往一开始研究数据分析,是从大量“高大上”的算法开始的,决策树、随机森林、多元回归、kmeans聚类、层次聚类、支持向量机、LSTM、...,看算法的原理,找案例、写代码加深掌握。
随着实际业务的开展,更深刻理解到每个算法优缺点的问题。例如尽管kmeans、DBSCAN、层次聚类都是无监督场景下的团体划分,但kmeans对特殊分布的数据集不能够得出合理的划分,DBSCAN在簇之间密度差距过大时效果不好,层次聚类计算量不适用大规模数据情况。
再深入下去发现模型能力的提升上需要做很多探索工作。特征的提取、最优参数的提取、10倍训练数据的实际监测查看模型效果、···
深入层面
算法有了一定了解以后,向深度学习、大数据深入,考虑在大规模数据量的情况下实时流转运算。
同时这个阶段开展业务场景的探索,重点不再是模型怎么样,而是面对这样的业务场景能够实现什么?可以用哪些工具实现?实现的内容是否是有价值的?侧重点应该在业务场景的探索上。
业务层面
业务层面是一个合格的分析必须具备的能力。
一个分析之前为什么要写项目方案?项目方案怎么写?怎样尽可能的明确分析目的?为实现目的需要考虑哪些维度?有哪些分析思路?如何将决策选项指标化?
数据应该怎样呈现才能使分析体现价值?分析报告要如何撰写?
对比的使用
参考资料
[1]《数据分析 企业的贤内助》陈哲