统计

如何在数据分析中引入外部数据源?

2019-03-07  本文已影响50人  DataHunter小数

对于数据分析应用来说,数据源是很多企业或是分析师非常苦恼的问题,由于缺乏丰富且高质量的数据,我们很难达到想要的数据分析效果。要解决这一问题,除了挖掘内部数据之外,一个行之有效的方法就是采用外部数据,下面,我们就来看一下如何集成外部数据,以及应该注意的事项 :

从组织外部整合新数据流的意义在于,其可以为用户的数据分析工作提供更深入的洞察,并增强价值。Gartner的一份调查报告指出,在受访的 196 个组织中,46%的组织表示其使用了外部数据源。

一个简单但是常见的例子在于,通过在数据分析中添加天气数据这一外部数据源,可以帮助零售商在特定时间预测某些产品的需求。比如,当天气预报显示未来有暴雪的时候,雪铲的销量可能会创新高,保险公司也有更充裕的时间来应对雪灾造成的索赔,或是通知其客户防范即将来临的灾难。

尽管外部数据非常流行,也具有重要的意义,但我们依然要注意,没有经过审查的数据或是低质量的数据会给数据洞察带来难以忽视的损害。所以,企业需要围绕购买、审查数据建立一套合适的机制,它涵盖数据来源确定、数据质量审核、数据清洗等步骤。

在流程上来看,一旦确定了数据来源,组织就需要测试数据样本的质量,并与内部可能已有的其他数据保持一致。

组织还必须了解有关该数据的法律或是道德风险,组织需要清楚的指导这些数据来源于哪里,是否合法,是否存在着泄露或是产生争议的可能性。特别是在GDPR以及《网络安全法》等合规性法律出台的前提下,了解这些信息对于规避风险至关重要。

如果您要购买数据,您可能还需要考虑是需要购买完整的数据库,还是只想获取部分的数据。德勤报告指出,很多数据服务商从多个来源收集数据,并以单独或是打包的方式来提供,组织可以根据自己的需求进行选择。

此外,部分数据服务商还支持数据交换或是整合的模式,组织可以将其自有的数据“出售”给服务商,提供商会将这些数据与来自其他来源的数据相结合,在提升数据量的同时,也降低了组织获取数据的成本。

评估和管理外部数据流程的团队应由首席数据官领导,并与业务、IT和法律团队进行紧密协同。公司应该将自己视为数据生态系统的参与者,推动数据在更大范围内被安全、合法、有序的进行共享。

特别是当组织希望创建机器学习和人工智能实践时,获取并管理外部数据变得至关重要,这是因为人工智能技术需要依赖对大量的数据进行训练,数据量、数据类型越多,分析结果也就越精确,而内部数据往往无法满足这些海量数据的需求。

对于BI应用来说,想要引入外部数据源往往取决于BI平台是否支持外部数据源的引入。在Data Analytics 平台上,就提供了外部数据库的接入功能,用户不仅可以接入多种格式的数据库,还能通过其预设的统计数据、金融数据、天气数据等公共数据,更快捷、低成本的实现数据的整合与关联分析工作。

更多干货内容,欢迎关注公众号:数猎天下DataHunter

-数据分析展示就用 DataHunter-

上一篇下一篇

猜你喜欢

热点阅读