007第四十一篇:事后诸葛亮—最大似然估计?统计学(18)
似然(likelihood):过去的可能性。
最大似然估计(maximum likelihood estimation):是一种统计方法,它用来求一个样本集的相关概率密度函数的参数。
“现实的就是合理的,合理的就是现实的”。——黑格尔
结合黑格尔的话,解释一下最大似然估计:现实就是过去最可能发生的,过去最可能发生的就是现实。这就是这种统计方法的逻辑依据。
时间是单向的,显示一旦发生,便不可逆转。究竟哪些系统因素和偶然因素共同导致了现实的发生?这个问题我们永远不能确切知道。我们唯一能做的,就是寻找一系列理论模型。每个模型由一系列关于自变项与因变项之关系的假设组成,每个模型预测出一个可能世界,哪个模型预测出的可能世界更接近现实世界,哪个模型就是最大似然模型。模型里显著的回归系数就是我们对过去世界系统因素的最佳猜测。可以分为以下五个步骤来说明:
第一步:描述现实世界。就是数据呈现“交叉分布表”,比如种族与是否经理交叉表。
第二步:构建初始可能的世界。初始可能世界,即零假设(种族与是否经理无关)成立时的世界。如果有两个以上自变项,相应就有多个零假设。“控制其他变项的变化,自变项的变化与因变项的变化没有显著相关。”
第三步:如果初始可能世界与现实世界有显著差距,就放弃它。判断是否有显著差距,借助一个类似卡方检验的工具检验。出现一个新的“零假设”,前一个零假设是自变项与因变项不显著相关;新型零假设为理论模型与现实世界的数据完全相符。
类似卡方值的这里的判断依据是“似然性自然对数的负2倍(-2 loglikehood)”简称:负二倍。计算方式:就是概念表述。ln0.0001=-9.21;ln0.5=-0.69;ln0.9999=-0.0001则乘以-2后得到18.42;1.38;0.0002。这些值与卡方值分布相似,同样也可以查处一个概率,如果概率极小,则零假设放弃(放弃零假设为理论模型与现实世界的数据完全相符)。
第四步:建立新的可能世界假设。修改初始可能世界的数值,新建2.0版可能世界,再次执行“第三步”。
第五步:持续修改替代模型,把后建立的模型与前一个模型对比,目的是“负二倍”不断减小,直到“负二倍”不再显著变化,这时候的模型达到了最大似然。
最大似然就是“事后诸葛亮”。事情已经发生了,虽然我们无法真实再现当时的一切情况。我们不断的猜测、还原,找到一种最贴切与现实世界数据的模型构造,权且当做回顾到的实际世界。