AI基础知识 | AI数据哪里来?如何评判数据质量?
数据采集的过程好比是人用眼睛看、用耳朵听、用鼻子闻、用嘴巴尝......这些都是感受外界的行为,接收外部信息从而采取措施,做出判断与决策——AI产品同样需要这样的过程。
1、AI数据来源有哪些呢?
常见的数据获取方式有以下三种:
(1)直接购买行业数据
有许多专门做行业研究的组织、公司、机构,在某一特定的领域获取的大量的数据,他们通过某种方式将数据提供给需求者。比如开放的网站(包括科研、算法竞赛、政府开发数据、个人组织公开数据等)、运营商、行业数据分析公司等,通过有偿或无偿的方式共享数据。
例如:
ICPSR(ICPSR),提供全球领先的社会和行为学研究数据。
(2)自行采集
这种方式是通过自身的行业积累直接获取数据,也可以通过爬虫技术采集合法的互联网数据。这种方式的好处是可以按需采集,自定义采集指标、字段等。
(3)第三方合作
组织与组织之间合作,交换或购买数据来整合行业资源。比如,我们在某宝上搜了一款商品,在浏览另一个平台时会看到有关该类商品的广告,其实这是数据交换的结果。
2、如何判断这些数据的质量呢?
可以从这四个方面来衡量:关联度(Relevancy)、时效性(Recency)、范围(Range)、可信性(Reliability),简称4R原则。
(1)关联度
在AI领域,关联度是评价数据的首要指标,如果关联度不高,其他的数据指标都毫无意义。比如在自然语言处理的领域中,想让机器学会如何人交流,就需要大量的强关联数据作为基础。
(2)时效性
数据应该有较强的是时效性,特别是资讯类的产品,对这一点有更高的要求。
(3)范围
有句话说,"不以.......为目的的......,都是耍流氓",目的决定了边界,决定了行为范围。在AI领域,范围也极大影响着数据的质量,而且数据范围也代表了数据的完整度。一般情况下,互联网公司的数据完整度较好。
(4)可信性
数据的可信性是获取用户信任的关键。