深入浅出数据分析整理
深入浅出数据分析这本书是了解数据分析的基础入门,比较简单。我用了两天半的时间看完了这本书,也算是开启了我数据分析领域的第一站,以后还会有好多站。下面是我对这本书的一个简单整理和总结。
这本书每章都以一个小的案例来阐述数据分析师如何依靠数据分析的能力解决问题的思路,过程和方法,以不同的思考模式,简洁明了的方式直接戳击问题的本质,一步步带你去思考,去解决问题。我觉得这本书用一根主线贯穿起来,不是层次分布,逐渐递进,而是一种相互平行,不同问题的解决方法。但是相互关联,你中运用我,我中也有你。
一.数据分析引言——分解数据
1.数据分析就是要仔细的推敲数据,具有固定的基本流程
确定——分解——评估——决策
确定:确定是分析的基础,决定一个大的方向。在确定问题的过程中,应尽量从客户那里获取信息,可量化,具体化,确定化,例如不停的问"多少"。还可以询问对手情况,好奇数据等。
分解:将问题划分为可管理,可解决的组块,各个击破。对各项进行有效的比较,包括所有方面的差异。得出自己对数据的想法,以及确定出从客户中得到的确信观点。
评估:评估分解组块的关键就是比较。做出自己的判断。
决策:提出自己的建议,将自己的设想和判断以合适的格式整合起来,供用户决策。报告内容可包括确定的观点,即背景,你的判断依据,即数据解说,和建议。
2.心智模型:你对外界的假设和你确信的观点就是你的心智模型,务必尽量明确心智模型,要依靠数据说话。
二、实验——检验你的理论
(这种方法可以用于有多种解决方案时,不明确哪种更合理的问题,但问题要具有可实验性)
1.观察研究法:被研究的人自行决定自己属于哪个群体的一种研究方法。在观察研究法中可能会出现各种混杂因素,这时候需要拆分数据块,管理混杂因素。
2.控制组:一组体现现状的处理对象,未经过任何新的处理。
在具有多种处理方案的前提下,选出最合理的方案可以接住实验的方法确定。实验组,对照组,随机性,避免混杂因素。对结果的处理如上所述。
三、最优化——寻找最大值
(这种方法可用于处理类似在一定条件的限制下,如何得出最值的问题)
1.决策变量是你能控制的变量,你能控制的变量受到约束条件的限制。如何处理约束条件与决策变量是运用数据分析要考虑的问题。即最优化问题。
2.为了解决一个最优化问题,你需要将决策变量,约束条件,及希望最大化的目标合并成一个目标函数。在同一张图形里绘制多种约束条件,形成可行域,借助相应的工具实现最优化。
四、数据图形化——图形让你更精明
(这是数据分析师对待所有问题的最终目标)
1.数据分析的目的在于总结数据,体现数据。优秀的数据图形展现数据,做了高明的比较,展示了多个变量。
2.对于探索性的数据分析,(例如分析网站的哪种风格更容易让用于接受。)散点图是个奇妙的工具。它可以发现个个变量的因果关系。即一个变量影响着一个变量的关系。
3.最优秀的图形是多元图形。如果一个图形能对三个以上变量进行比较,这张图形就是多元图形。
4.有一个办法能让图形多元化,即将多张相似的散点图相邻排放,进而可以进行大量比较。
五、假设检验——假设并非如此
(这种方法适合于对未来的预测,要在未来最合理的时间点做出最合理的安排)
1.假设检验就是建设集中可能的情况,依靠手中的数据做出预判,选出最合理的选择。
2.建设检验的核心是证伪。即剔除无法证实的假设。别用满意法。
3.剔除一部分假设后,剩下的假设可以借助诊断性进行检测。诊断性就是证据说具有的一种功能,能够帮助你评估所考虑的似然。借助诊断性找出否定性最小的假设。这个办法无法一一剔除所有假设,但可以判断哪个假设最强。
六、贝叶斯统计——穿越第一关
(处理概率性问题的一种严谨,正式的方法)
1.计算某条件下某种情况的概率=某情况的概率/(某情况下某条件登我概率+情况不成立条件下某情况发生的概率)
七、主观概率——信念数字化
(可以将可能性的词语用于数字化表达)
1.主观概率体现的对某种情况的一个数字化估计。
2.描述数据之间差异性的强弱可以采用标准偏差法,标准偏差法量度分析点与平均值的偏差。它的单位取决于测量单位。
3.贝叶斯规则是修正主观概率的好办法。找出在假设成立的条件下,证据出现的概率。
八、启发法——凭人类的天性做分析
(这种方法适用于生活中的多数情况难以以最理性的方式展开,而利用既不齐全也不确定的信息,凭经验处理,迅速做出决策)
启发法是从直觉走向最优化的桥梁,大多数思维活动都是启发式的。它是一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。描述启发法的图形被称为快省树。
九、直方图——数字的形状
(直方图可以小巧而实用的度量数据的分布,差异,集中趋势)
十、回归——预测
(可以帮助预测某些结果值,预测客户行为)
1.散点图是一种将不同变量放在一起进行比较的好方法。
2.回归线就是最准确的贯穿平均值图中各个点的直线。平均值图是一种散点图,这种散点图显示出与x轴上的每个区间相对应的y轴数值。回归线可以用简单的等式来表达,通过该等式可以预测某个范围内的x变量对应的y变量。
3.回归线对于具有线性相关特点的数据很有用。y=ax+b
十一、误差——合理误差
1.回归方程预测的是人们平均得到的结果。显然,并不是每个人都能和平均值一样。用回归方程预测数据范围以外的数值称为外插法。对于回归方程,要注明使用外插法的警示。
2.机会误差=实际结果与模型预测结果之间的偏差。又称残差。一般指出预测范围比较合理。
3.标准偏差描述的是平均值周围的情况,均方根误差描述的是回归线周围的分布情况。回归线上下的误差区间宽度应该等于同一个均方根误差。对于一个图形中密集成都不一的地方,可以采用多条回归线(即分区模型)减小误差。
4.优秀的回归线分析兼具解释功能和预测功能。
十二、关系数据库——你能关联吗
十三、整理数据——井然有序
后两章主要讲解的是有关数据的整理,借助相应的技术手段实现,后期我会陆续学习有关的技术层面,到时在做有关技术的总结。