关于贝叶斯概率的入门

2020-03-28  本文已影响0人  沈阳老孟

《统计学关我什么事》

短评

前半部分利用面积讲解的不错,后半部分比较水,总的来说还是不错的一本书。

思维导图

相关知识

贝叶斯公式:
P(A|B)=\frac{P(A) * P(B|A)}{P(B)}

后验概率 = 先验概率 * 似然度 / 标准化常量 = 先验概率 * 标准似然度

P(A|B) 随着 P(A) 和 P(B|A) 的增长而增长,随着 P(B) 的增长而减少。

A 的后验概率与 A 的先验概率 和 似然度(即 B 的后验概率)成正比,与 B 的先验概率成反比。

即如果 B 独立于 A 时被观察到的可能性越大,那么 B 对 A 的支持度越小。

摘抄批注

第0讲 只要会做四则运算,便可掌握贝叶斯统计学 本书的特点

贝叶斯统计的优势在于,“在数据少的情况下也可以进行推测,数据越多,推测结果越准确”,以及“对所获的信息可做出瞬时反应,自动升级推测”的学习功能。

贝叶斯统计中所涉及的概率是“主观的”。

第1部 快速学习!理解贝叶斯统计学的精髓

我们将这种“基于直觉的判断”数值化,从而使它可以通过计算获得。

在贝叶斯统计学中,这种“某种类别的概率(比例)”有一个专有名词,叫作“先验概率”。“事前”的含义是:在获得某项信息之前。

“面积”的概念在贝叶斯概率的计算中,起着重要的作用。

哲学上将这种见解称为“可能世界”,在进行逻辑推算或概率推算时,采用这种“划分互不相同的可能性”的思维方法,有利于整理思路。

用数值来计算概率的情况下,需要在多种可能性中,选取“将各部分概率相加,总和为1”的那一种,这种情况被称为“标准化条件”。

表示“某一特定类别采取各种行动的概率”,这在高等数学中被称为“条件概率”。用“原因”的概念来解释,即“在原因明确的情况下,某一类别采取各项行动的结果概率”(第15讲中将介绍:如何用符号来表示条件概率)。

各个区域所表示的概率与每个长方形的面积相等。

被称为“贝叶斯逆概率”或“后验概率”。

所谓的“逆”是指:用与之前相反的方法,来解析表示几个互不相同的“世界”的图形。

结果→原因 这一过程,就是“逆概率”这一概念中“逆”的含义。

贝叶斯推理过程

贝叶斯推理可以总结为:通过观察行动(信息),将先验概率通过贝叶斯更新,转换为后验概率。

先验概率,是“在获得信息之前,各个类别的存在概率”。

贝叶斯推理的魅力正在于:即使没有事前的客观数据,也能进行推算。也就是说,可以主观设定先验概率,进行推算。

“人的内心描绘的数值”的概率称为“主观概率”。

1.设定各个类别的先验概率(由于无法获得得到数据,采用理由不充分原理,将先验概率设定为各种情况下的可能性各占一半)。
2.设定关于行为的条件概率(运用调查数据)。
3.根据获得的行为信息,排除不可能存在的可能性。
4.使余下几种情况的概率数值,在保持比例关系的前提下,满足“相加之和为1”,恢复标准化条件。
5.获得各个类别的后验概率(贝叶斯逆概率)。
6.根据对行为的观察,将先验概率更新为后验概率(贝叶斯更新)。
7.涉及的概率为“主观概率”。

理由在于,贝叶斯推理在某种意义上来讲是一种“宽松”的推断。所谓的“宽松”是指:设定不可思议的先验概率,并且其数值可以是主观性的。

内曼和皮尔逊这两位统计学家共同构筑了现代统计学的形式。还有一位名叫费希尔的统计学者,对统计学也做出了重大的贡献。因此,也有“费希尔・内曼・皮尔逊统计学”这样的名称。本书统一采用通用名称——“内曼-皮尔逊统计学”。

一般来说,“推论”是指对于尚不明确的事件,通过掌握的某些证据进行推理、并且查明其事实的行为。

1.逻辑性推理(自然演绎)是由逻辑学演绎法经过严密推导得出的结论。
2.在已知的事实中如果存在不确定的部分,则需要概率推理。
3.概率推理一般会得出“大概是”这样的结论。
4.概率推理包括标准统计学推理和贝叶斯推理两种方法。
5.标准统计推理是在一定风险上以“是
”这样的形式将结论集中到一点。
6.贝叶斯推理中,则是以“每种可能性都有,但**的可能性更高”的形式,得出两者都有可能的结论。

假设检验的顺序
第一步:提出想要验证的假设A。假设A又名“解消假设”。
第二步:若假设A不成立,再提出一个假设B。假设B又名“对立假设”。
第三步:若假设A成立,再设定一个只有在小概率α的情况下能观察到的现象X。
第四步:确认是否观察到了现象X。
第五步:若能观察到现象X的情况下,则判断解消假设A是错误的,此时便可以抛弃解消假设A,而选择对立假设B。
第六步:若未能观察到现象X,则不能否决解消假设A,那么选择解消假设A即可。

只有A是正确的情况下,才会发生低概率 α 事件。如果实际观察到了的话,则判断 A 本来就是错误的,于是抛弃掉 A;如果观察不到,因为没有抛弃 A 的理由,所以予以保留”。此处的概率 α,成为是否抛弃假设 A 的基准,这在专业领域被称为“显著水平”。

1.标准的概率推论是根据内曼皮尔逊统计学产生的。
2.首先,设定解消假设与对立假设。
3.设定显著水平 α。通常 α=0.05 或 α=0.01。
4.关注在解消假设的条件下,只有在显著水平 α 以下才能观察到的现象 X。
5.如果观察到现象 X,则抛弃解消假设,选择对立假设。
6.如果未能观察到现象 X,则选择解消假设。
7.检测假设在显著水平 α 概率下,有一定的错误风险。

贝叶斯推理的强项是“无论在何种条件下,都能得出一个暂时的结果”。但是,这个结果并不像内曼-皮尔逊统计学那样,得出一个单方面的判断(非 A 即 B),而是认为两种可能性都有,并赋予这两种可能性相应的比例关系,仅此而已。而“看到数值之后,做出判断”的工作,就留给统计学家们了。

所谓根据贝叶斯推理得出的结论的“风险评价”,其实就是“后验概率”本身。

用比喻性的说法来解释:假设检验的风险存在于结论之外,而贝叶斯推理的风险则存在于结论的后验概率本身之中。

贝叶斯推理之所以能在不考虑显著水平的情况下做出判定,是因为设定了先验概率这一“奇怪的”概念。

简单来说,“极大似然原理”的含义就是:世界上正在事件,之所以发生,是因为它发生的概率大。

做出该判断的时候,选择的是使结果的概率最大的那个原因,这正是极大似然原理的体现。

观察 N 次,其中发生了 x 次,此时的极大似然估计量就是 x ÷ N(使用微分法)。总之,极大似然原理与平均值这一统计量密切相关。

以极大似然原理为桥梁,可以让我们明白:标准统计学与贝叶斯统计学之间,存在着共通共融的思想。

1.极大似然原理是指,采用使观察到的现象的发生概率最大的原因的原理。
2.我们可以认为,贝叶斯统计学中的先验概率是极大似然原理的应用之一。
3.标准统计学的点推理中,采用使观察到的现象的概率最大的函数作为推断值,这也是极大似然原理的应用之一。
4.普通统计学与贝叶斯统计学的共通思想,便是极大似然原理。

由于获得了一定信息而导致概率发生变化。

概率性推论依存于“主观”因素——对概率现象结构的想象,因此结论会根据模型的构建方式而不同。

1.把两个试验组合在一起的直积试验,需要把长方形分割成格子形状,并通过图来表示。
2.两个独立试验的含义是:直观来讲,一方的结果不会对另一方的结果产生影响。
3.两个试验各自独立时,下列概率乘法公式成立:
{ ( 第一个试验的结果为 a、第二个试验的结果为 x ) 的概率}
= ( a 的概率) * ( x 的概率)

1.使用2条信息进行贝叶斯推理的方法与之前基本一致。
2.进行先验概率的类别设定,使用了2种情况下的2条信息,共有8种可能性。
3.利用乘法公式,可以计算出8种可能性各自的概率。
4.使用2条信息推算出的结论,比起仅仅使用1条信息来推算,检索出垃圾邮件的概率会更高。

“通过获得信息①而修改了各个类别的概率之后,再通过信息②来进行推理时,可以暂时忘记之前的信息①,这样做是没有问题的”。这在专业上被称为“序贯理性”,也是贝叶斯推理的突出性质之一。

“通过同时利用两条信息求出的后验概率”和“把通过信息①得出的后验概率设为先验概率,然后通过信息②,再求出后验概率”是完全一致的,在贝叶斯推理中,该结论一般情况下都是能够成立的。这一特性在专业领域被称为“序贯理性”。

从某种意义上来讲,贝叶斯推理是一种具备人类特性的推理方式”

1.“同时使用两条信息得出的后验概率”,与“把通过第一条信息中求出的后验概率设定为先验概率,再通过第二条信息,再一次得出后验概率”,二者的结果通常是一致的。
2.上述1的性质被称为序贯理性。
3.序贯理性可以看作学习功能的一种。
4.在贝叶斯推理中,即使忘记了之前的推测中使用过的信息,也是没有问题的。

信息越多,推理结果就越精确。

第2部 完全自学!从“概率论”到“正态分布”

1.概率模型由基本事件、事件、概率构成。
2.基本事件是指,不能再进行分解的基本性事件。
3.事件是若干个基本事件的集合。
4.将基本事件e的概率表记为 p({e})。
5.例如,由基本事件 e,f,g 构成的事件 {e,f,g} 的概率被定义为:
p({e,f,g}) = p({e}) + p({f}) + p({g})
6.“概率的加法法则”是指,在A和B中没有重复的事件时,以下式子成立:
p(A or B) = p(A) + p(B)
7.将两个概率现象组合形成的直积试验,由 a&b 这样的基本事件构成。因此,概率通常被定义为能够使乘法法则成立(假定为独立试验),所以通过乘法来进行计算。p({a&b}) = p({a}) × p({b})

获得“发生事件F”这一信息之后,E的条件概率,也就是:把F看做一个整体来考虑时,“E和F的重叠部分”占F的比例。因此,可以用除法计算求出,表示为:
(E 和 F 重叠部分的面积) ÷ (F 的面积)
因此,可进行如下定义:
p(E|F) = p(E 和 F 的重叠部分) ÷ p(F)

条件概率是指:把得到的消息再次设定为整体,并排除掉没有可能性的各个事件之后,重新计算出的比率。

当获得事件 B 这一信息之后,事件 A 的条件概率 p(A|B),可定义为:
p(A|B) = p(A 和 B 的重叠部分) ÷ p(B)

概率即为长方形的面积

&事件的概率法则
p(类别&信息) = p(类别) × p(信息|类别)
换言之,用 & 来连接的类别和信息所构成的可能性的概率为:将“类别的先验概率”和“在【这个类别】的基础上,能够得到这条信息的条件概率”相乘的结果。

1.条件概率是指,在获得信息之后,基本事件减少的情况下,赋予的比例关系。
2.在获得“事件 B”这一信息后,事件 A 的条件概率 p(A|B) 可定义为:
p(A|B) = p(A 和 B 的重叠部分) ÷ p(B)
3.在贝叶斯推理中,使用条件概率公式②时有两种方法。
4.第1种使用方法:求出类别 & 信息的概率。
即,p(类别&信息) = p(类别) × p(信息|类别)
5.第2种使用方法:求出后验概率。已知数据信息,通过上面的方法来计算 p(类别&信息) 的比例关系,并使之满足标准化条件。

在诸如均匀分布这种连续型概率模型中,用来表示的概率并不是“高度”,而是“面积”。

速度是根据所花费的时间,首次转化为距离的量。而概率密度的含义也大致相同,是指根据区间所占的宽度,首次转换为概率的量。

5.概率分布图是指,设定横轴为数值、纵轴为概率的图表。在连续型的情况下,纵轴则不用来表示概率本身,而是概率的密度。
6.均匀分布的概率分布图为水平直线(线段)。事件的概率就是长方形的面积。
7.在均匀分布中,(概率)=(概率密度)×(区间的长度)

概率密度是指“乘以区间的长度后可以转化为概率的量”。

y = (常数) * x^(α - 1) * (1 - x)^(β - 1) (0≤x≤1)

换言之,α=2,β=1的贝塔分布为:y=2x (0≤x≤1)

α=1,β=2的贝塔分布为:y = 2 * (1 - x) (0≤x≤1)

α=2、β=2的贝塔分布为 y = 6x(1 - x) (0≤x≤1)

1.贝塔分布,是 x 的取幂和(1 - x)的取幂相乘的形式。
2.在 x 的0次幂和(1 - x)的0次幂的情况下,与均匀分布相一致。
3.在 x 的1次幂和(1 - x)的0次幂、x 的0次幂和(1 - x)的1次幂的情况下,概率分布图为线段。
4.在 x 的1次幂和(1 - x)的1次幂的情况下,概率分布图为抛物线。
5.常数是由标准化条件(面积之和为1)决定的。

期待值,计算方法如下:
(概率分布的期待值)=(数值)×(取该数值的概率)的合计

横轴数值与纵轴数值乘积的合计。

在期待值的计算中,(数值)×(得到该数值的概率)这一乘法运算意味着“加权”。

这种计算方式被称为“加权平均”。

从长期的角度来看,期待值的合计结果与实际情况一致。

如果将表示期待值的点作为支点,左右两侧将保持平衡,模型整体会处于稳定状态。

贝塔分布中,将 α、β 设为大于1的常数,如下所示:
y = (常数) * x^(α - 1) * (1 - x)^(β - 1) (0≤x≤1)
x 为基本事件的数值,y 为概率密度。贝塔分布的期待值的公式如下:
(贝塔分布的期待值) = α / (α + β)

1.期待值,即为通过该数值,可以代表概率分布的数值。
2.期待值的计算方法为:(数值)×(取该值时的概率)的合计
3.无数个期待值的合计值,与实际趋于一致。即,
(N 次计算出的数值的合计)=(期待值的 N 倍)
在 N 的取值足够大的情况下成立。
4.期待值,为挑担人偶型概率分布图保持平衡使的支点。
5.α、β 为常数时,贝塔分布的期待值为 α/(α+β)

把后验分布设为与先验分布相同的分布,这样的先验分布称为“共轭先验分布”。

在贝叶斯推理中存在一个惯例:把想需要推理的概率模型的共轭先验分布作为先验分布来运用。原因有二:
原因1:若把先验分布和后验分布设为相同,那么计算就会变得简单很多。
原因2:若先验分布和后验分布不同,那么从哲学角度来思考的话,会觉得很奇怪。

若把类别 x 的先验分布设定为均匀分布,那么后验分布为贝塔分布。

对于“类别”本身(而不是类别x的概率分布)进行推理时,使用贝塔分布的期待值。

共轭先验分布,是为了把先验分布和后验分布统一为同样分布的先验分布。

标准正态分布

横轴 x 表示类别的数值,纵轴 y 表示的是出现的概率密度,该图表具有如下特征:
·以 y 轴(x = 0)为轴,左右对称。
·图像呈为吊钟型(铃型),最高点在 x = 0 的位置。
·无论 x 取何值,y 也不会等于0(图表向左右两侧无限延伸)。
·在 x ≥ 2 的部分,图像急剧下降;同样,在 x ≤ 2 的部分,图像也急剧下降。

只要赋予平均值 μ 和标准偏差 б,就能确定一个正态分布。
μ 的含义为分布的平均值。表示为图表的顶点位置,因此也是挑担人偶的平衡支点。
б 表示分布的标准偏差。即表示图表左右扩大多少,其含义是分布的“扩大”“分布”。
标准正态分布是指 μ=0、б=1 的情况。平均值 μ、标准偏差 б 的正态分布的分布图,是在不改变标准正态分布的分布图面积的情况下,左右延长 б 倍,y 方向延长 1/б 倍,并且只在 x 方向上平行移动 μ。

对于“即使将正态分布进行平均化,结果也依然是正态分布”。

1.正态分布这种概率分布,在自然和社会中经常能观察到。
2.只要确定了平均值 μ 和标准偏差 б,就能确定一个正态分布。
3.平均值μ表示图像的顶点位置,标准偏差 б 表示图像的扩大程度。
4.标准正态分布是所有正态分布的基础,即 μ=0、б=1。
5.把平均值 μ、标准偏差 б 的正态分布中概率分布的变量 x 转换为变量 z=\frac{x-\mu}{\sigma},那么变量 z 就成为标准正态分布中概率分布的变量。
6.对于根据平均值 μ、标准偏差 б 的正态分布观测到的数值,进行 n 次观测。若把其平均值记为 \overline{x},那么遵循平均值为 μ、标准偏差为 \frac{\sigma}{\sqrt{n}} 的正态分布。

标准偏差的2次方是被称为“方差”的量。

方差小的数值对于修正值的影响更大。

1.在类别为 θ、信息为 x 的贝叶斯推理中,若信息 x 的概率分布 p(x|θ) 为将 θ 设为平均值时的正态分布的情况,那么,将 θ 的共轭先验分布设定为正态分布。
2.上述1的情况下,后验分布 p(θ|x) 也为正态分布。
3.把 θ 的先验分布设定为平均值 \mu_0、标准偏差 \sigma_0 的正态分布,观测的信息 x 遵循平均值 θ、标准偏差 б 的正态分布。但 \mu_0\sigma_0\sigma 均为具体的已知数值。此时,在观察到的数值为 x 情况下,θ 的后验分布为正态分布,其平均值为:
\frac{\dfrac{1}{\sigma_0^2}\cdot\mu_0+\dfrac{1}{\sigma^2}\cdot{x}}{\dfrac{1}{\sigma_0^2}+\dfrac{1}{\sigma^2}}
4.在多次观测的情况下,若把观测到的 n 个数值的平均值(观测值的合计值 ÷ n)记为 \overline x,那么在观测到数值 \overline x 的情况下,θ 的后验分布为正态分布,其平均值为:
\frac{\dfrac{1}{\sigma_0^2}\cdot\mu_0+\dfrac{n}{\sigma^2}\cdot{\overline x}}{\dfrac{1}{\sigma_0^2}+\dfrac{n}{\sigma^2}}

上一篇下一篇

猜你喜欢

热点阅读