Y7-Big Data

2016-08-16  本文已影响20人  罗尹伊

Q1 怎样的数据才能叫做大数据?

大数据在舍恩伯格看来,一共具有三个特征:全样而非抽样,效率而非精确,相关而非因果

                                                                                            ——《大数据时代》

1【全样而非抽样】

谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了7成以上的北美搜索市场,而在这些数据中,已经完全没有必要去抽样调查这些数据:数据仓库,所有的记录都在那里躺着等待人们的挖掘和分析。

如果想称之为大数据,首先要做到(近似)全样本。 就是直接获取总体信息,不必通过样本参数去推断总体参数。

2效率而非精确

精确的计算是以时间消耗为代价的。

在小数据时代,追求精确是为了避免放大的偏差而不得已为之(设想一下,在一个总样本为1亿人口随机抽取1000人,如果在1000人上的运算出现错误的话,那么放大到1亿中会有多大的偏差)

但在样本=总体的大数据时代(有多少偏差就是多少偏差而不会被放大),快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。

在能够获得近似全样本的基础上,为了提高商业上的效率,数据分析通常采用简单算法。

3相关而非因果

舍恩伯格认为,大数据时代只需要知道是什么,而无需知道为什么,就像亚马逊推荐算法一样,知道喜欢A的人很可能喜欢B但却不知道其中的原因。    商业本来就是以结果为导向的。 

因为无法控制无关因素,所以只能得到相关结论,而非因果。


参考阅读:http://bbs.pinggu.org/thread-2239985-1-1.html

《大数据时代》《删除》《第四范式》

上一篇下一篇

猜你喜欢

热点阅读