数据分析入门-基本概念

2016-08-10  本文已影响589人  毛嘎子

SAS提出了一套数据分析的流程
1.抽样S:导入,过滤选取某些条件的样本,抽样
2.探索E:数据分布是什么样子的?平均数。数值之间是否存在一定的相关性。特征选择。
3.修改M:删除一些不必要的特征
4.建模M:逻辑回归,
5.评估:模型比较,评分

** 数据分析流程**:在经过这个过程之前,你还必要对业务非常了解(所以之前去做HIS调研,或者阅读相关政策文件,去和业务方沟通是非常必须的),才能知道数据分析的目的是什么;收集数据(就相当于在解决方案出来之后,去找合作方要数据,然后再对数据做清洗)

** 离散变量** :只能用自然数或者整数单位计算的,比如设备台数、男生个数;
** 连续变量**:在一个区间内可以任意取值。男生的身高;销售额是连续变量,销售量是离散的还是连续的?得看销售量是怎么定义的,如果是重量,那应该是连续的,如果是个数,那就是离散的

** 描述统计**:平均值、最大值、最小值、均值、期望、方差、标准误

置信区间

自由度:df。自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数(比如说已知样本的均值,自由度就要减1,因为第n个数的取值是由平均值和前n-1个数就可以确定的)

相关系数:两组数据间是否有无关系,如果|相关系数|>0.7说明两者存在某种关系,如果值是负的则代表是负相关;
** 相关关系与因果关系 :很多事物之间是有相关关系,A增长B也会随之增长,不一定是因为A导致了B,因果关系是有方向的。但是相关关系是没有方向
确定关系:已知边长得到面积,可以表示为函数关系的就是确定性关系。
其实回归研究的是一种相关关系,而不是确定关系。因为存在其他影响Y的因素还有很多,包括一些我们还没有发现的,和一些随机因素,因此自变量X只能在一定程度上决定y,回归方程是用确定性的函数关系来近似地描述非确定的相关关系。
** T检验
:检测两组数据是否有差异,

** 样本 **:调查某中学300名中学生的视力情况中,样本是300名中学生的视力情况(注意不是300名学生),而样本容量则为300.

** 数据的分布情况 **:

** 常见的数据检验方法 **:做一个假设,并对该假设作出是拒绝还是接受

** 最大似然估计 **:
** 回归 **:使用最小二乘法直线拟合来执行回归分析,很多个变量对目标有什么影响;在excel里面有p-value,相当于假设检验

上一篇 下一篇

猜你喜欢

热点阅读