《机器学习实践指南》
应用各种统计指标和指标体系来反映对象总体的性质。
1. 机器学习应用的统计分析强调实际应用效果,检测损失函数即描述预测与实际之间的偏差;
2. 数据分析应用对数据建立模型,并对模型做出假设。
条件概率是事件A在另外一个事件B已经发生条件下的发生概率。
在贝叶斯统计中,条件概率也称为后验概率。
联合概率是指A和B两个事件共同发生的概率。
概率分布,广义上说是随机变量的概率性质,狭义上是指随机变量的概率分布函数。
随机变量的实质是函数。
协方差表示的是两个变量的总体的误差。如果两个变量的变化趋势一致,比如其中一个大于自身的期望值,另一个也大于自身的期望值,那么两个变量间的协方差就是正值。如果两个变量的变化趋势相反,比如其中一个大于自身的期望值,另一个却小于自身的期望值,那么两个变量间的协方差就是负值。如果X与Y是统计独立的,那么二者之间的协方差就是0。
残差是观测值与预测值之间的差。
残差不应该有某种趋势,若残差中出现一种明显的趋势,则意味着模型不适合。
无论使用哪种非线性回归模型,都可以通过变量变换转化为线性模型,从而用最小二乘法进行回归分析。
尝试通过rnorm函数产生较小的随机数,加在精确计算的y值上,这样计算后形成的非线性回归模型拥有一定的残差,较接近真实环境。
分位数是描述数据位置的方法,它将一个随机变量的分布范围分为几个等份的数值点。分位数法被用来识别某临界值。
累积分布函数被定义为随机变量小于或等于某个数值的概率。
连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数,而随机变量落在某个区域之内的概率为概率密度函数在这个区域上的积分,当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。
参数估计和非参数估计的方法可以用来针对给定样本点集合求解随机变量的分布密度函数。
参数估计中常用的是参数回归分析,它假定数据分布符合某种特定的性态,如线性、可化线态或指数性态等,然后确定回归模型的未知参数。但参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距。
核密度计算。
极差是一组数据中最大数据与最小数据的差。
半极差是一组数据四分位数间距(上四分位数与下四分位数之差)。
变异度反映数据围绕中心位的离散度,半极差越大,变异度越大。
变异系数,亦称“离散系数”,是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。变异系数越小,变异程度越小,反之亦然。
样本平方和分校正(CSS)与未校正(USS),前者代表样本与均值差的平方求和,后者代表样本值平方的求和。
偏度系数用于衡量实数随机变量概率分布的不对称性,偏度值可正可负,无量纲,取值通常为-3~+3,其绝对值越大,表明偏斜程度越大。均值右侧更分散的数据偏度系数为正,均值左侧更分散的数据偏度系数为负。
峰度系数用于衡量实数随机变量概率分布的峰态,峰度高意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。当数据分布为正态分布时,峰度系数近似为0;当数据分布较正态分布的尾部更分散时,峰度系数为正,两侧的极端数据较多;除此之外,峰度系数为负,两侧的极端数据较少。
QQ图可以测试数据分布是否近似为某种类型分布。如果近似于正态分布,则数据点接近下面方程表示的直线:y=σx+μ,其中σ为标准差,μ为平均值。
W检验可以检验数据是否符合正态分布。Shapiro-Wilk normality test
Kolmogorov-Smirnov检验用于检验单一样本是否来自某一特定分布。