#数据QA分享# 数据项目特点

2021-06-23  本文已影响0人  李春辉

数据项目通常是收集大量的数据,结合各种技术手段对数据进行分析、挖掘,帮助提升企业在商业模式、产品或服务上的创新力、提升商业决策水平、提高效益。数据项目的特点除了大家熟悉的数据本身的特点以外,本节又总结了其它几点:业务、技术、交付件。

业务方面

数据项目业务特点是通过数据实现为企业创造价值,即通过对大量的数据分析、挖掘,帮助企业增加市场份额、提升利润、降低经营风险、发现新的商业模式。
在【数据 + 技术 => 业务价值】的过程中,通常有这么两种思络:数据驱动和业务驱动。

数据驱动<=>业务驱动

(1)数据驱动
其核心是以数据为基础,通过分析企业已有数据源或相关同行业数据源,通过对数据分析或挖掘,从而发现问题、定位问题、由以往的经验判断转换为由数据驱动数据判断。

(2)业务驱动
其关键是在懂自身行业和业务的前提,通过业务找数据、通过问题找数据,再从找到的数据中发现问题、解决问题,从而丰富和创造业务。

数据驱动 + 业务驱动

数据方面

数据项目最大的特点就是项目数据的特点,4个V,如下图:


大数据4个V

交付件

在数据项目的交付件中,数据、软件程序、AI模型这三部分都有可能是最后的交付物。有的项目可能三者同时都有。

为何要从交付件这一方面来谈数据项目的特点,看上去有些牵强。这里两个目的:

技术侧

数据项目使用的技术框架通常都是大数据技术,专门处理大规模数据的存储与计算等问题。大数据核心技术又是围绕大数据生命周期:采集、存储和分析、共享、应用这四个方面分类,常见的大数据技术就有:
文件存储:Hadoop HDFS、Tachyon、KFS
离线计算:Hadoop MapReduce、Spark
流式、实时计算:Storm、Spark Streaming、S4
K-V、NOSQL数据库:HBase、Redis、MongoDB
资源管理:YARN、Mesos
日志收集:Flume、Scribe、Logstash
消息系统:Kafka、StormMQ
查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Flink、Druid
分布式协调服务:Zookeeper
集群管理与监控:Ambari、Ganglia、Nagios
数据挖掘、机器学习:Mahout、Spark MLLib
数据同步:Sqoop
任务调度:Oozie

以上从业务、数据、技术、交付件这四个方面,介绍了数据项目通常有哪些不一样,希望对大家了解数据项目有一些帮忙。

上一篇 下一篇

猜你喜欢

热点阅读