关于贝叶斯概率的入门

2020-03-28 本文已影响0人沈阳老孟

《统计学关我什么事》

短评

前半部分利用面积讲解的不错，后半部分比较水，总的来说还是不错的一本书。

思维导图

摘抄批注

第0讲只要会做四则运算，便可掌握贝叶斯统计学本书的特点

标注 (黄色) - 位置 121

贝叶斯统计的优势在于，“在数据少的情况下也可以进行推测，数据越多，推测结果越准确”，以及“对所获的信息可做出瞬时反应，自动升级推测”的学习功能。

标注(黄色)-位置126

贝叶斯统计中所涉及的概率是“主观的”。

第1部快速学习！理解贝叶斯统计学的精髓

标注(黄色)-第1讲信息增加导致概率变化 “贝叶斯推理”的基本方法>位置154

我们将这种“基于直觉的判断”数值化，从而使它可以通过计算获得。

标注(黄色)-第1讲信息增加导致概率变化 “贝叶斯推理”的基本方法>位置163

在贝叶斯统计学中，这种“某种类别的概率（比例）”有一个专有名词，叫作“先验概率”。“事前”的含义是：在获得某项信息之前。

标注(黄色)-第1讲信息增加导致概率变化 “贝叶斯推理”的基本方法>位置175

“面积”的概念在贝叶斯概率的计算中，起着重要的作用。

标注(黄色)-第1讲信息增加导致概率变化 “贝叶斯推理”的基本方法>位置179

哲学上将这种见解称为“可能世界”，在进行逻辑推算或概率推算时，采用这种“划分互不相同的可能性”的思维方法，有利于整理思路。

标注(黄色)-第1讲信息增加导致概率变化 “贝叶斯推理”的基本方法>位置182

用数值来计算概率的情况下，需要在多种可能性中，选取“将各部分概率相加，总和为1”的那一种，这种情况被称为“标准化条件”。

标注(黄色)-第1讲信息增加导致概率变化 “贝叶斯推理”的基本方法>位置196

表示“某一特定类别采取各种行动的概率”，这在高等数学中被称为“条件概率”。用“原因”的概念来解释，即“在原因明确的情况下，某一类别采取各项行动的结果概率”（第15讲中将介绍：如何用符号来表示条件概率）。

标注(黄色)-第1讲信息增加导致概率变化 “贝叶斯推理”的基本方法>位置205

各个区域所表示的概率与每个长方形的面积相等。

标注(黄色)-第1讲信息增加导致概率变化 “贝叶斯推理”的基本方法>位置243

被称为“贝叶斯逆概率”或“后验概率”。

标注(黄色)-第1讲信息增加导致概率变化 “贝叶斯推理”的基本方法>位置245

所谓的“逆”是指：用与之前相反的方法，来解析表示几个互不相同的“世界”的图形。

标注(黄色)-第1讲信息增加导致概率变化 “贝叶斯推理”的基本方法>位置250

结果→原因这一过程，就是“逆概率”这一概念中“逆”的含义。

标注(黄色)-第1讲信息增加导致概率变化 “贝叶斯推理”的基本方法>位置260

贝叶斯推理过程

贝叶斯推理可以总结为：通过观察行动（信息），将先验概率通过贝叶斯更新，转换为后验概率。

标注(黄色)-第2讲贝叶斯推理的结果，有时与直觉大相径庭① 使用客观数据时的注意事项>位置308

先验概率，是“在获得信息之前，各个类别的存在概率”。

标注(黄色)-第3讲根据主观数字也可以进行推理疑惑时分的“理由不充分原理”>位置402

贝叶斯推理的魅力正在于：即使没有事前的客观数据，也能进行推算。也就是说，可以主观设定先验概率，进行推算。

标注(黄色)-第3讲根据主观数字也可以进行推理疑惑时分的“理由不充分原理”>位置488

“人的内心描绘的数值”的概率称为“主观概率”。

标注(黄色)-第3讲根据主观数字也可以进行推理疑惑时分的“理由不充分原理”>位置490

1．设定各个类别的先验概率（由于无法获得得到数据，采用理由不充分原理，将先验概率设定为各种情况下的可能性各占一半）。
2．设定关于行为的条件概率（运用调查数据）。
3．根据获得的行为信息，排除不可能存在的可能性。
4．使余下几种情况的概率数值，在保持比例关系的前提下，满足“相加之和为1”，恢复标准化条件。
5．获得各个类别的后验概率（贝叶斯逆概率）。
6．根据对行为的观察，将先验概率更新为后验概率（贝叶斯更新）。
7．涉及的概率为“主观概率”。

标注(黄色)-第4讲运用“概率的概率”，拓宽推理范围>位置538

理由在于，贝叶斯推理在某种意义上来讲是一种“宽松”的推断。所谓的“宽松”是指：设定不可思议的先验概率，并且其数值可以是主观性的。

标注(黄色)-第5讲从推算过程开始，逐渐明确的贝叶斯推理的特征>位置673

内曼和皮尔逊这两位统计学家共同构筑了现代统计学的形式。还有一位名叫费希尔的统计学者，对统计学也做出了重大的贡献。因此，也有“费希尔・内曼・皮尔逊统计学”这样的名称。本书统一采用通用名称——“内曼－皮尔逊统计学”。

标注(黄色)-第5讲从推算过程开始，逐渐明确的贝叶斯推理的特征>位置683

一般来说，“推论”是指对于尚不明确的事件，通过掌握的某些证据进行推理、并且查明其事实的行为。

标注(黄色)-第5讲从推算过程开始，逐渐明确的贝叶斯推理的特征>位置722

1．逻辑性推理（自然演绎）是由逻辑学演绎法经过严密推导得出的结论。
2．在已知的事实中如果存在不确定的部分，则需要概率推理。
3．概率推理一般会得出“大概是”这样的结论。
4．概率推理包括标准统计学推理和贝叶斯推理两种方法。
5．标准统计推理是在一定风险上以“是”这样的形式将结论集中到一点。
6．贝叶斯推理中，则是以“每种可能性都有，但**的可能性更高”的形式，得出两者都有可能的结论。

标注(黄色)-第6讲明快而严格，但其使用场合受到限制的内曼-皮尔逊式推理>位置757

假设检验的顺序
第一步：提出想要验证的假设A。假设A又名“解消假设”。
第二步：若假设A不成立，再提出一个假设B。假设B又名“对立假设”。
第三步：若假设A成立，再设定一个只有在小概率α的情况下能观察到的现象X。
第四步：确认是否观察到了现象X。
第五步：若能观察到现象X的情况下，则判断解消假设A是错误的，此时便可以抛弃解消假设A，而选择对立假设B。
第六步：若未能观察到现象X，则不能否决解消假设A，那么选择解消假设A即可。

标注(黄色)-第6讲明快而严格，但其使用场合受到限制的内曼-皮尔逊式推理>位置763

只有A是正确的情况下，才会发生低概率 α 事件。如果实际观察到了的话，则判断 A 本来就是错误的，于是抛弃掉 A；如果观察不到，因为没有抛弃 A 的理由，所以予以保留”。此处的概率 α，成为是否抛弃假设 A 的基准，这在专业领域被称为“显著水平”。

标注(黄色)-第6讲明快而严格，但其使用场合受到限制的内曼-皮尔逊式推理>位置781

1．标准的概率推论是根据内曼皮尔逊统计学产生的。
2．首先，设定解消假设与对立假设。
3．设定显著水平 α。通常 α＝0.05 或 α＝0.01。
4．关注在解消假设的条件下，只有在显著水平 α 以下才能观察到的现象 X。
5．如果观察到现象 X，则抛弃解消假设，选择对立假设。
6．如果未能观察到现象 X，则选择解消假设。
7．检测假设在显著水平 α 概率下，有一定的错误风险。

标注(黄色)-第7讲通过少量信息得出切实结论的贝叶斯推理与内曼-皮尔逊式推理的差异>位置826

贝叶斯推理的强项是“无论在何种条件下，都能得出一个暂时的结果”。但是，这个结果并不像内曼－皮尔逊统计学那样，得出一个单方面的判断（非 A 即 B），而是认为两种可能性都有，并赋予这两种可能性相应的比例关系，仅此而已。而“看到数值之后，做出判断”的工作，就留给统计学家们了。

标注(黄色)-第7讲通过少量信息得出切实结论的贝叶斯推理与内曼-皮尔逊式推理的差异>位置843

所谓根据贝叶斯推理得出的结论的“风险评价”，其实就是“后验概率”本身。

标注(黄色)-第7讲通过少量信息得出切实结论的贝叶斯推理与内曼-皮尔逊式推理的差异>位置846

用比喻性的说法来解释：假设检验的风险存在于结论之外，而贝叶斯推理的风险则存在于结论的后验概率本身之中。

标注(黄色)-第7讲通过少量信息得出切实结论的贝叶斯推理与内曼-皮尔逊式推理的差异>位置848

贝叶斯推理之所以能在不考虑显著水平的情况下做出判定，是因为设定了先验概率这一“奇怪的”概念。

标注(黄色)-第8讲贝叶斯推理的基础：极大似然原理贝叶斯统计学与内曼-皮尔逊统计学的衔接点>位置895

简单来说，“极大似然原理”的含义就是：世界上正在事件，之所以发生，是因为它发生的概率大。

标注(黄色)-第8讲贝叶斯推理的基础：极大似然原理贝叶斯统计学与内曼-皮尔逊统计学的衔接点>位置907

做出该判断的时候，选择的是使结果的概率最大的那个原因，这正是极大似然原理的体现。

标注(黄色)-第8讲贝叶斯推理的基础：极大似然原理贝叶斯统计学与内曼-皮尔逊统计学的衔接点>位置941

观察 N 次，其中发生了 x 次，此时的极大似然估计量就是 x ÷ N（使用微分法）。总之，极大似然原理与平均值这一统计量密切相关。

标注(黄色)-第8讲贝叶斯推理的基础：极大似然原理贝叶斯统计学与内曼-皮尔逊统计学的衔接点>位置944

以极大似然原理为桥梁，可以让我们明白：标准统计学与贝叶斯统计学之间，存在着共通共融的思想。

标注(黄色)-第8讲贝叶斯推理的基础：极大似然原理贝叶斯统计学与内曼-皮尔逊统计学的衔接点>位置947

1．极大似然原理是指，采用使观察到的现象的发生概率最大的原因的原理。
2．我们可以认为，贝叶斯统计学中的先验概率是极大似然原理的应用之一。
3．标准统计学的点推理中，采用使观察到的现象的概率最大的函数作为推断值，这也是极大似然原理的应用之一。
4．普通统计学与贝叶斯统计学的共通思想，便是极大似然原理。

标注(黄色)-第9讲贝叶斯推理的结果，有时与直觉大相径庭② 蒙蒂霍尔问题与三个囚犯的问题>位置1001

由于获得了一定信息而导致概率发生变化。

标注(黄色)-第9讲贝叶斯推理的结果，有时与直觉大相径庭② 蒙蒂霍尔问题与三个囚犯的问题>位置1084

概率性推论依存于“主观”因素——对概率现象结构的想象，因此结论会根据模型的构建方式而不同。

标注(黄色)-第10讲掌握多条信息时的推理① 运用“独立试验的概率乘法公式”>位置1190

1．把两个试验组合在一起的直积试验，需要把长方形分割成格子形状，并通过图来表示。
2．两个独立试验的含义是：直观来讲，一方的结果不会对另一方的结果产生影响。
3．两个试验各自独立时，下列概率乘法公式成立：
{ ( 第一个试验的结果为 a、第二个试验的结果为 x ) 的概率}
= ( a 的概率) * ( x 的概率)

标注(黄色)-第11讲掌握多条信息时的推理② 以垃圾邮件过滤器为例>位置1287

1．使用2条信息进行贝叶斯推理的方法与之前基本一致。
2．进行先验概率的类别设定，使用了2种情况下的2条信息，共有8种可能性。
3．利用乘法公式，可以计算出8种可能性各自的概率。
4．使用2条信息推算出的结论，比起仅仅使用1条信息来推算，检索出垃圾邮件的概率会更高。

标注(黄色)-第12讲在贝叶斯推理中可以依次使用信息 “序贯理性”>位置1320

“通过获得信息①而修改了各个类别的概率之后，再通过信息②来进行推理时，可以暂时忘记之前的信息①，这样做是没有问题的”。这在专业上被称为“序贯理性”，也是贝叶斯推理的突出性质之一。

标注(黄色)-第12讲在贝叶斯推理中可以依次使用信息 “序贯理性”>位置1360

“通过同时利用两条信息求出的后验概率”和“把通过信息①得出的后验概率设为先验概率，然后通过信息②，再求出后验概率”是完全一致的，在贝叶斯推理中，该结论一般情况下都是能够成立的。这一特性在专业领域被称为“序贯理性”。

标注(黄色)-第12讲在贝叶斯推理中可以依次使用信息 “序贯理性”>位置1380

从某种意义上来讲，贝叶斯推理是一种具备人类特性的推理方式”

标注(黄色)-第12讲在贝叶斯推理中可以依次使用信息 “序贯理性”>位置1383

1．“同时使用两条信息得出的后验概率”，与“把通过第一条信息中求出的后验概率设定为先验概率，再通过第二条信息，再一次得出后验概率”，二者的结果通常是一致的。
2．上述1的性质被称为序贯理性。
3．序贯理性可以看作学习功能的一种。
4．在贝叶斯推理中，即使忘记了之前的推测中使用过的信息，也是没有问题的。

标注(黄色)-第13讲每获得一条信息，贝叶斯推理就变得更精确一些>位置1422

信息越多，推理结果就越精确。

第2部完全自学！从“概率论”到“正态分布”

标注(黄色)-第14讲 “概率”与“面积”的性质相同概率论的基础>位置1630

1．概率模型由基本事件、事件、概率构成。
2．基本事件是指，不能再进行分解的基本性事件。
3．事件是若干个基本事件的集合。
4．将基本事件e的概率表记为 p({e})。
5．例如，由基本事件 e，f，g 构成的事件 {e，f，g} 的概率被定义为：
p({e，f，g}) = p({e}) + p({f}) + p({g})
6．“概率的加法法则”是指，在A和B中没有重复的事件时，以下式子成立：
p(A or B) = p(A) + p(B)
7．将两个概率现象组合形成的直积试验，由 a＆b 这样的基本事件构成。因此，概率通常被定义为能够使乘法法则成立（假定为独立试验），所以通过乘法来进行计算。p({a＆b}) = p({a}) × p({b})

标注(黄色)-第15讲在获得信息之后，概率的表示方法 “条件概率”的基本性质>位置1668

获得“发生事件F”这一信息之后，E的条件概率，也就是：把F看做一个整体来考虑时，“E和F的重叠部分”占F的比例。因此，可以用除法计算求出，表示为：
(E 和 F 重叠部分的面积) ÷ (F 的面积)
因此，可进行如下定义：
p(E|F) = p(E 和 F 的重叠部分) ÷ p(F)

标注(黄色)-第15讲在获得信息之后，概率的表示方法 “条件概率”的基本性质>位置1674

条件概率是指：把得到的消息再次设定为整体，并排除掉没有可能性的各个事件之后，重新计算出的比率。

标注(黄色)-第15讲在获得信息之后，概率的表示方法 “条件概率”的基本性质>位置1676

当获得事件 B 这一信息之后，事件 A 的条件概率 p(A|B)，可定义为：
p(A|B) = p(A 和 B 的重叠部分) ÷ p(B)

标注(黄色)-第15讲在获得信息之后，概率的表示方法 “条件概率”的基本性质>位置1702

概率即为长方形的面积

标注(黄色)-第15讲在获得信息之后，概率的表示方法 “条件概率”的基本性质>位置1703

＆事件的概率法则
p(类别＆信息) = p(类别) × p(信息|类别)
换言之，用＆来连接的类别和信息所构成的可能性的概率为：将“类别的先验概率”和“在【这个类别】的基础上，能够得到这条信息的条件概率”相乘的结果。

标注(黄色)-第15讲在获得信息之后，概率的表示方法 “条件概率”的基本性质>位置1748

1．条件概率是指，在获得信息之后，基本事件减少的情况下，赋予的比例关系。
2．在获得“事件 B”这一信息后，事件 A 的条件概率 p(A|B) 可定义为：
p(A|B) = p(A 和 B 的重叠部分) ÷ p(B)
3．在贝叶斯推理中，使用条件概率公式②时有两种方法。
4．第1种使用方法：求出类别＆信息的概率。
即，p(类别＆信息) = p(类别) × p(信息|类别)
5．第2种使用方法：求出后验概率。已知数据信息，通过上面的方法来计算 p(类别＆信息) 的比例关系，并使之满足标准化条件。

标注(黄色)-第16讲 “概率分布图”帮助我们进行更加通用的推理>位置1855

在诸如均匀分布这种连续型概率模型中，用来表示的概率并不是“高度”，而是“面积”。

标注(黄色)-第16讲 “概率分布图”帮助我们进行更加通用的推理>位置1864

速度是根据所花费的时间，首次转化为距离的量。而概率密度的含义也大致相同，是指根据区间所占的宽度，首次转换为概率的量。

标注(黄色)-第16讲 “概率分布图”帮助我们进行更加通用的推理>位置1871

5．概率分布图是指，设定横轴为数值、纵轴为概率的图表。在连续型的情况下，纵轴则不用来表示概率本身，而是概率的密度。
6．均匀分布的概率分布图为水平直线（线段）。事件的概率就是长方形的面积。
7．在均匀分布中，（概率）＝（概率密度）×（区间的长度）

标注(黄色)-第17讲 “贝塔分布”的性质由两个数字决定>位置1891

概率密度是指“乘以区间的长度后可以转化为概率的量”。

标注(黄色)-第17讲 “贝塔分布”的性质由两个数字决定>位置1892

y = (常数) * x^(α - 1) * (1 - x)^(β - 1) (0≤x≤1)

标注(黄色)-第17讲 “贝塔分布”的性质由两个数字决定>位置1928

换言之，α＝2，β＝1的贝塔分布为：y＝2x (0≤x≤1)

标注(黄色)-第17讲 “贝塔分布”的性质由两个数字决定>位置1944

α＝1，β＝2的贝塔分布为：y = 2 * (1 - x) (0≤x≤1)

标注(黄色)-第17讲 “贝塔分布”的性质由两个数字决定>位置1952

α＝2、β＝2的贝塔分布为 y = 6x(1 - x) (0≤x≤1)

标注(黄色)-第17讲 “贝塔分布”的性质由两个数字决定>位置1970

1．贝塔分布，是 x 的取幂和(1 - x)的取幂相乘的形式。
2．在 x 的0次幂和(1 - x)的0次幂的情况下，与均匀分布相一致。
3．在 x 的1次幂和(1 - x)的0次幂、x 的0次幂和(1 - x)的1次幂的情况下，概率分布图为线段。
4．在 x 的1次幂和(1 - x)的1次幂的情况下，概率分布图为抛物线。
5．常数是由标准化条件（面积之和为1）决定的。

标注(黄色)-第18讲决定概率分布性质的“期待值”>位置2001

期待值，计算方法如下：
（概率分布的期待值）＝（数值）×（取该数值的概率）的合计

标注(黄色)-第18讲决定概率分布性质的“期待值”>位置2004

横轴数值与纵轴数值乘积的合计。

标注(黄色)-第18讲决定概率分布性质的“期待值”>位置2005

在期待值的计算中，（数值）×（得到该数值的概率）这一乘法运算意味着“加权”。

标注(黄色)-第18讲决定概率分布性质的“期待值”>位置2007

这种计算方式被称为“加权平均”。

标注(黄色)-第18讲决定概率分布性质的“期待值”>位置2016

从长期的角度来看，期待值的合计结果与实际情况一致。

标注(黄色)-第18讲决定概率分布性质的“期待值”>位置2020

如果将表示期待值的点作为支点，左右两侧将保持平衡，模型整体会处于稳定状态。

标注(黄色)-第18讲决定概率分布性质的“期待值”>位置2059

贝塔分布中，将 α、β 设为大于1的常数，如下所示：
y = (常数) * x^(α - 1) * (1 - x)^(β - 1) (0≤x≤1)
x 为基本事件的数值，y 为概率密度。贝塔分布的期待值的公式如下：
(贝塔分布的期待值) = α / (α + β)

标注(黄色)-第18讲决定概率分布性质的“期待值”>位置2086

1．期待值，即为通过该数值，可以代表概率分布的数值。
2．期待值的计算方法为：（数值）×（取该值时的概率）的合计
3．无数个期待值的合计值，与实际趋于一致。即，
（N 次计算出的数值的合计）＝（期待值的 N 倍）
在 N 的取值足够大的情况下成立。
4．期待值，为挑担人偶型概率分布图保持平衡使的支点。
5．α、β 为常数时，贝塔分布的期待值为 α/(α＋β)

标注(黄色)-第19讲在“贝塔分布”中使用概率分布图进行高级推理>位置2224

把后验分布设为与先验分布相同的分布，这样的先验分布称为“共轭先验分布”。

标注(黄色)-第19讲在“贝塔分布”中使用概率分布图进行高级推理>位置2225

在贝叶斯推理中存在一个惯例：把想需要推理的概率模型的共轭先验分布作为先验分布来运用。原因有二：
原因1：若把先验分布和后验分布设为相同，那么计算就会变得简单很多。
原因2：若先验分布和后验分布不同，那么从哲学角度来思考的话，会觉得很奇怪。

标注(黄色)-第19讲在“贝塔分布”中使用概率分布图进行高级推理>位置2233

若把类别 x 的先验分布设定为均匀分布，那么后验分布为贝塔分布。

标注(黄色)-第19讲在“贝塔分布”中使用概率分布图进行高级推理>位置2235

对于“类别”本身（而不是类别x的概率分布）进行推理时，使用贝塔分布的期待值。

标注(黄色)-第19讲在“贝塔分布”中使用概率分布图进行高级推理>位置2237

共轭先验分布，是为了把先验分布和后验分布统一为同样分布的先验分布。

标注(黄色)-第20讲在抛硬币或天体观测时观察到的“正态分布”>位置2260

标准正态分布

标注(黄色)-第20讲在抛硬币或天体观测时观察到的“正态分布”>位置2267

横轴 x 表示类别的数值，纵轴 y 表示的是出现的概率密度，该图表具有如下特征：
·以 y 轴(x = 0)为轴，左右对称。
·图像呈为吊钟型（铃型），最高点在 x = 0 的位置。
·无论 x 取何值，y 也不会等于0（图表向左右两侧无限延伸）。
·在 x ≥ 2 的部分，图像急剧下降；同样，在 x ≤ 2 的部分，图像也急剧下降。

标注(黄色)-第20讲在抛硬币或天体观测时观察到的“正态分布”>位置2303

只要赋予平均值 μ 和标准偏差 б，就能确定一个正态分布。
μ 的含义为分布的平均值。表示为图表的顶点位置，因此也是挑担人偶的平衡支点。
б 表示分布的标准偏差。即表示图表左右扩大多少，其含义是分布的“扩大”“分布”。
标准正态分布是指 μ＝0、б＝1 的情况。平均值 μ、标准偏差 б 的正态分布的分布图，是在不改变标准正态分布的分布图面积的情况下，左右延长 б 倍，y 方向延长 1/б 倍，并且只在 x 方向上平行移动 μ。

标注(黄色)-第20讲在抛硬币或天体观测时观察到的“正态分布”>位置2325

对于“即使将正态分布进行平均化，结果也依然是正态分布”。

标注(黄色)-第20讲在抛硬币或天体观测时观察到的“正态分布”>位置2332

1．正态分布这种概率分布，在自然和社会中经常能观察到。
2．只要确定了平均值 μ 和标准偏差 б，就能确定一个正态分布。
3．平均值μ表示图像的顶点位置，标准偏差 б 表示图像的扩大程度。
4．标准正态分布是所有正态分布的基础，即 μ＝0、б＝1。
5．把平均值 μ、标准偏差 б 的正态分布中概率分布的变量 x 转换为变量 $z=\frac{x-\mu}{\sigma}$ ，那么变量 z 就成为标准正态分布中概率分布的变量。
6．对于根据平均值 μ、标准偏差 б 的正态分布观测到的数值，进行 n 次观测。若把其平均值记为 $\overline{x}$ ，那么遵循平均值为 μ、标准偏差为 $\frac{\sigma}{\sqrt{n}}$ 的正态分布。

标注(黄色)-第21讲在“正态分布”中使用概率分布图进行高级推理>位置2435

标准偏差的2次方是被称为“方差”的量。

标注(黄色)-第21讲在“正态分布”中使用概率分布图进行高级推理>位置2443

方差小的数值对于修正值的影响更大。

标注(黄色)-第21讲在“正态分布”中使用概率分布图进行高级推理>位置2458

1．在类别为 θ、信息为 x 的贝叶斯推理中，若信息 x 的概率分布 p(x|θ) 为将 θ 设为平均值时的正态分布的情况，那么，将 θ 的共轭先验分布设定为正态分布。
2．上述1的情况下，后验分布 p(θ|x) 也为正态分布。
3．把 θ 的先验分布设定为平均值 $\mu_0$ 、标准偏差 $\sigma_0$ 的正态分布，观测的信息 x 遵循平均值 θ、标准偏差 б 的正态分布。但 $\mu_0$ 、 $\sigma_0$ 、 $\sigma$ 均为具体的已知数值。此时，在观察到的数值为 x 情况下，θ 的后验分布为正态分布，其平均值为：
$\frac{\dfrac{1}{\sigma_0^2}\cdot\mu_0+\dfrac{1}{\sigma^2}\cdot{x}}{\dfrac{1}{\sigma_0^2}+\dfrac{1}{\sigma^2}}$
4．在多次观测的情况下，若把观测到的 n 个数值的平均值（观测值的合计值 ÷ n）记为 $\overline x$ ，那么在观测到数值 $\overline x$ 的情况下，θ 的后验分布为正态分布，其平均值为：
$\frac{\dfrac{1}{\sigma_0^2}\cdot\mu_0+\dfrac{n}{\sigma^2}\cdot{\overline x}}{\dfrac{1}{\sigma_0^2}+\dfrac{n}{\sigma^2}}$