概率论与统计推断(四) ------ 统计推断

2019-08-02  本文已影响0人  千喜Ya

本节目标 :


一.概率论与统计推断的关系

根据观测到的有限数据,反向思考其数据生成过程,是因为以下两个定理 :

二.总体与样本

总体:

样本:

三.直方图与箱线图(机器学习的数据探索部分会用上)

频率直方图可以反映数据的概率密度函数:


四分位数: Q1范围的来由 : 至少有124=3个数不大于Q1,至少有120.75=9的数据不小于Q1,5满足此条件,8不满足此条件,因此取5和8的中位数
箱线图:中心位置是M
散步程度:因为数据量一定,越窄的面积越小,数据也就越集中
箱线图的重要作用 : 检测异常点
红短线部分是疑似异常点:异常点上面的黑短线是Q1-1.5IQR
上面长方形中的红线是M
箱线图还适合检测比较两个或两个以上数据集的性质
从下图两个箱线图可得知:男教师的中位数比女教师的高(因为黄长方形的中心位置比橙长方形的中心位置高)
同时可以看出男教师的得分比较分散,没有女教师的集中
看右边的直方图是看不出来的

四.极大似然估计

1.似然函数
离散型 :
连续型:
两者的区别只是使用的函数不同
2.极大似然估计

频率学派的观点,认为有上帝在制造这些数据时参数是固定的,我们要考虑的就是每个值最有可能是这些参数值
局限性 : 只看重事实结果,在样本容量不大的时候得到的结果往往并不可靠


极大似然估计就是似然函数取最大值的时候对应的θ:

五.最大后验公式

贝叶斯学派的观点,认为并没有上帝视角,要确定这些数据是由固定参数制造出来的,因此我们关心每个参数的可能取值,给这些值一些自己认为合理的假设值(就是先验分布函数)
局限性 : 先验分布是个非常主观的判断,无法解释取什么分布函数比较合适

与似然函数的区别,是否有先验分布函数:
10次抛硬币问题:函数取最大值时相比最大似然估计,最大后验估计往左移(是受到先验分布函数的影响)

要消除两种估计的分歧 : 增加试验的次数

1000次抛硬币:
案例: 先求似然函数:T表示转置,将横向量转为列向量 有似然函数后再求先验分布函数:先假设W0与W1都服从N(0,T^2)[题目没有,主观认为] 最后得到的式子比较重要,在机器学习的线性回归部分会用到
上一篇下一篇

猜你喜欢

热点阅读