大数据分析预测就好比占星卜卦?
导语:
中国人讲“旁观者清,当局者迷”。 “当局者迷”是因为自己看不清自己,所以我们要把自己的处境悬架起来,当作一面镜子,这就是卦。把自己的状态,自己的处境,让自己成为旁观者来做评判,这个过程就是算卦,其中对未来的展望就是占卜。这与大数据分析预测何其相似,从历史数据提取关键信息,分析其特征表现,预测其未来。
“行星运行”—寻找规律
太阳系八大行星绕太阳运行周期数据: 观测数据是行星绕太阳一周所需要的时间(以年为位)和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。
“仙人指路” – 实践规律
占卜功能来源于《易经》,从来就是神秘高深,不可测。 而我们从《易经》中了解到,每个卦,每一爻都包含了“象”,“数”,“理”三种含义。举个例子。 我们在算卦时,师傅会占卜人的面相,这就是一个“象”, 而看了哪些位置,花了多少时间,就有了它的“数”,为什么要这样看?所以“理”就出现了。“相面”、“看手相”与“星座”等 “命里”/“性格”论也可以认为是一种基于“总结”的规律实践。
数据分析与占星卜卦有没有相似之处 ?
答案是有,都围绕着三个贯通点,观察、寻找特征、应用规律(经验)。
历史中的数据事故
1.朝鲜战争: 志愿军的7天攻势
1950年12月31日,中朝联军发起第五次战役,至1月7日,联合国军已退至三七线南北之平泽、安城、堤川、宁越、三陟一线,战役遂于1月8日结束1951年4月22日,中国人民志愿军发动第五次战役,至29日结束。
2.辽沈战役:廖耀湘军团覆灭
为什么那里缴获的短枪与长枪的比例比其它战斗略高?
为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?
为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?
数据分析的四大问题
(1)数据分析是什么?
是寻找规律、提炼价值信息,并将分析结果用于决策的过程。
其中需要经历的过程有确定分析的目的 → 研究的对象 → 可以使用的数据→ 细致分析 → 结论与展示。
泰坦尼克号事故中什么样的人更易幸存?
(2)数据分析的基础是什么?
数据是分析的基础:分析是建立在数据之上,可以使用的 数据量、数据质量、数据的粒度等决定了分析的结果。
业务是分析的支撑:离开业务解读数据是枯燥的,没有意义的;如下图的示例中,不解释原始表结构与业务逻辑,无法分析。
(2.1)数据分析的基础 – 数据
数据:对事物存在与发展变化的描述
数据收集: 数据时代,记录事情发展变化成为可能
数据的记录形式: 数据结构
数据结构的变换:数据处理、统计
数据的处理: 计算(计算机),所以对数据结构有要求。
结构化数据:可以用数字或统一的结构表示的信息;
数据表: 一行为一条观测,一列为一个特征/维度
非结构化数据:无法用数字或统一的结果表示的信息。
如:图片、文本、声音
(3)数据分析的方法
数据分析的基本流程:定义问题(了解业务) → 收集数据 → 数据检查 → 数据处理 → 数据分析 → 结果展示 → 结果应用。
检查数据质量,包括缺失、异 常值、分布等
数据处理,包括填补缺失值、处 理异常值、衍生、标准化等。(泰坦尼克题目中,将Title、Pclass、Parch组合观察可以找到更好的差异)
(4)数据分析的原则
明确分析目标:围绕目的进行的分析工作;业务与数据相结合:分析结果最终要在业务上解释与应用,需要与业务结合;用数据说话:深入分析数据的实质,挖据数据内涵,不能 “认为是”,也不能停留在数据表面。
小问题1:如果一枚硬币连抛10次都是正面,问第11次出现正面的概率是多少?(请在评论区说出你的答案)
哪个老师的教学质量更好?
生活中的数据分析:
(1)在亚马逊上搜算图书《原则》,从而看到的其他图书推荐。
关联分析:Amzon 100件图书订单,购买《原 则》的有75件,购买《爆裂》的 有60件,同时购买两者的40件。 那么,两本书在被选购时是否可以相互推荐?
事件 - A:购买《爆裂》;B:购买《原则》
支持度 :同时购买概率 - 40/100 = 0.4
置信度 : 购买一个后,再购买另一个的条件概率
A对B的置信度: 40/60 = 0.67 B对A的置信度: 40/70 = 0.53
提升度:购买一件对购买另一件的概率提升左右
A对B的提升度:0.67/0.75 = 0.89
B对A的提升度:0.53/0.6 = 0.88
结论: 两本书的购买是互斥的
小问题:如果把订单总量变为1000 呢?(来评论区说出你的答案)
(2) 数据分析的应用—大数据杀熟分布
网友分享:
他经常通过某网站订某个特定酒店的房间,常年价格在380元-400元。偶然一次,他从前台得知酒店淡季价格在300元上下,他用朋友的账号查询也是300元,但用自己的账号查看还是380元。其他网友也分分晒出自己被宰的经历,大骂企业无良,不少媒体认为大数据是技术走了歪路,建议通过法律制裁。
由于篇幅有限,本文对大数据分析不再做过多的介绍,欢迎有兴趣的小伙伴通过官网咨询我司相关产品。