数据分析师应掌握的数据知识体系

2020-06-30  本文已影响0人  garyond

作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。

1. 数据采集

了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题;同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。

例如:当用户在离线状态下使用APP时,数据由于用户设备无法联网而发出,导致正常时间内的数据统计分析发生延迟现象。直到该设备下次联网时,数据才能被发出并归入当时的时间。这就产生了不同时间看相同历史时间的数据时会发生数据有出入。

在数据采集阶段,数据分析师需要更多的了解数据生产和采集过程中的异常情况,如此才能更好的追本溯源。另外,这也能很大程度上避免“Garbage In Garbage Out”的问题。

2. 数据存储

无论数据存储于云端还是本地存储,数据的存储不只是我们看到的数据库那么简单。

在数据存储问题的考虑上,数据分析师将遇到下列问题:

在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断动态变化和迭代更新的,其实时性、完整性、有效性、一致性、准确性等特性在很多时候由于软硬件、内外部环境问题无法得到保证,这些都会导致后期数据应用问题。

3. 数据提取

数据提取是将数据取出的过程,数据提取的核心环节是2W1H原则,即从哪取、何时取、如何取。

在数据提取阶段,数据分析师首先需要具备数据提取能力。常用的Select From语句是SQL查询和提取的必备技能,但即使是简单的取数工作也有不同层次。

  1. 第一层是从单张数据库中按条件提取数据的能力,where是基本的条件语句;

  2. 第二层是掌握跨库表提取数据的能力,不同的join有不同的用法;

  3. 第三层是优化SQL语句,通过优化嵌套、筛选的逻辑层次和遍历次数等,减少个人时间浪费和系统资源消耗。

其次是理解业务需求的能力,比如业务需要“销售额”这个字段,相关字段至少有产品销售额和产品订单金额,其中的差别在于是否含优惠券、运费等折扣和费用,包含该因素即是订单金额,否则就是产品单价×数量的产品销售额。

4. 数据挖掘

数据挖掘是面对海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则:

没有最好的算法,只有最适合的算法,算法选择的原则是兼具准确性、可操作性、可理解性、可应用性

没有一种算法能解决所有问题,但精通一门算法可以解决很多问题。挖掘算法最难的是算法调优,同一种算法在不同场景下的参数设定相同,实践是获得调优经验的重要途径。

在数据挖掘阶段,数据分析师要需要掌握数据挖掘相关能力。

5. 数据分析

数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。

6. 数据展示

数据展示即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据展现除遵循各公司统一规范原则外,具体形式还要根据实际需求和场景而定。

关于数据分析师在数据展示方面的基本素质要求如下:

最重要一点,数据展示永远都辅助于数据内容,有价值的数据报告才是关键。

7. 数据应用

数据应用是数据具有落地价值的直接体现,这个过程需要数据分析师具备数据沟通能力、业务推动能力和项目工作能力

上一篇下一篇

猜你喜欢

热点阅读