大数据
为什么要有大数据?
从计算机的出现,到人类使用计算机并且利用计算机提高工作效率的时间已经过去半个世纪之久。
在这期间计算机硬件不断的升级,软件不断丰富,不断的满足用户的需求,在各个方面提高人类的效率,常见的有出行、购物、支付....
成千上百倍的效率提高背后是大量的职业工作者对各种用户需求的挖掘,这些需求已经慢慢的给挖掘的消以殆尽,并且需求的挖掘是带有倾向性作为前提的。
那么问题来了,是否可以在用户都不知道自己的需求下完成这个需求呢?
是否可以根据用户的行为,自动的发现新需求,并且引导用户完成他的这个需求?
但是这个前提是要有大量的信息作为参照,从而选出最优的,否则会出现定向化,无法实现大众化。
而这些大量的参照数据以及根据这些数据帮助用户完成他想的这个需求,这个就是大数据。
什么是大数据?
大数据就是拿大量的数据进行分析,并且形成一套最优路径解决方案。
而这些数据往往是历史参考数据和用户近期数据作为一个参考、对比,并且将近期的数据也加入到历史库中,再次与旧的历史数据进行融合,如果这部分近期的数据是在某方面的影响较大则会影响到往后的数据结果。
如:数据库中资讯的数据(足迹、资讯等...),出现了大量的网红资讯,而近期近期大量的网红产品爆卖,买了网红A产品的用户,还会买网红B产品,而现在如果有用户搜索网红A产品后,在接下来的推荐中就可以推荐B产品,而不推荐C产品,因为C产品是非常非常少的买了网红A产品的用户才会买,并且C产品和网红系列的产品相关性非常低。
大数据的本质是数学,假设所有事件都是有联系,比如有一个人买了一个商品,那么同样买了这个商品的其他人,和这个人是有关联的关系,可能收入是在一个阶段的,爱好等特征是有相似的。
特点
大量(Volume):目前用户的个人硬盘基本都达到了1TB,企业的硬盘达到了PB。
高速(Velocity):数据处理速度就是企业的生命。
多样性(Variety):结构化数据、半结构化数据、非结构化数据。
价值密度(Value):价值密度和数据总量成反比,比如,我们只关心用户吃了什么的数据,而用户其他行为的数据就显得价值性不大,并且其他的数据会导致数据总量的上升。
数据容量单位
Bit-> Byte -> KB -> MB -> GB -> TB -> PB -> EB -> ZB ->YB -> BB -> NB -> DB
应用场景
房产:精准决策和营销,选出更合适的地,建更合适的楼。
作者有个猜想,未来计算机会不会根据用户的操作,先提前将数据加载进内存,从而提高用户的体验?
数据部门组织架构
集群与分布式区别与联系
集群就是集结了数台计算机的运算能力一起去做一件事。
分布式就是将任务分成小任务,各自去处理这个小任务。