Lecture1

2021-05-19  本文已影响0人  数科每日

Lecture1 视频链接
Reporter: Jonas Peters


image.png

开场

1. 因果关系很重要 !

image.png

讲着这里举了一个例子: x 轴是某个基因的活跃程度, y轴是该物种的某种性状(这里没说二者相关)。 可以看到, 两个图中, 数据点的分布非常相似, 都是明显的线性相关。 这时讲者提出一个问题:根据现有数据(图中红色圆点), 请给出0点处 y 对应的值。

在不知道x 和 y因果关系的时候, 只能通过相关性做线性回归, 预测如左图所示。 但是对于右图而言, 实际情况可能是红色竖线所示。 原因是, 有另外一个因素, 同时影响了 x, y。 右图中红色数据点给出的不是趋势, 而是y 的取值范围。 根据这个例子,作者想说明2个道理

2. 什么是因果模型

image.png

如果你有一个因果模型(例如 结构化因果模型 SCM), 那么就意味着你可以知道:

3. 讲者在因果推断上的研究范围

4. 因果,统计,数据 的关系

image.png
  1. 如果有 因果模型(causal modle)那么可以通过 因果推理(causal reasoning) 得出观测数据,结果以及干预效果

  2. 如果有观测数据,结果以及干预效果, 那么可以通过 因果学习/发现 (causal learning / discovery) 来获得 因果模型(causal modle)

  3. 因果模型(causal modle)包含了 统计模型(probilistic model)

  4. 上面的框的数据,干预种类更多, 自然包括了下面的部分

  5. 从数据到统计模型, 这个过程叫 统计学习(statistical learning),也叫机器学习 (machine learning)

  6. 从统计模型到数据: 统计推理。

这里要注意的是2和5。对于 5 来说, 如果存在无限多的数据, 那么就很容易得到统计模型。当然, 现实中不存在无限多的数据, 但是大数据是一个很好的近似。 也就是说, 在有了大数据的情况下, 统计模型可以很容易获得。 但是2就不一样了, 即使你有无限多的数据, 也不能轻易的得到因果模型, 这个步骤要难的多。

第一部分 因果语言表示和因果推理

例1

image.png

这是一个简单的例子, 里面只包括2个变量, 一个因一个果。 例如 海拔(altitude)和 温度(temperature)。 左面方框中, 因果常用写法
X:= N_{x} : X 是一个符合标准正态分布的随机变量(比如,不同地点的海拔)
Y:= -6X + N_{y} : X, Y 不独立,Y 是果, X 是因, 最后的 N_{y} 代表噪声

对X的干预

当对X进行干预, 使得 X=3 时。 Y的分布就变成

Y {\sim} N(-18,1)

对Y的干预

当对Y进行干预, 使得 Y {\sim} N(2,2)

而这时, X 的分布依然是 X {\sim} N(1,0)。 因为 X 是因, Y 是果, 在因果模型中不能反向推导。 举例解释: 如果通过暖气让温度上升, 这时 Y (tempeture )的分布就会发生变化, 但是这并不会改变当地的海拔 (X)。

例2

image.png

一个相对复杂的例子:

干预 X_{1} 让其等于 0, 记作 P_{do(X_{1} := 0)}

这时, 上图结构变成如下图

注意 指向 X_{1} 的箭头消失了, 因为 它被干预了,也就是说,被人为设定了, 因此就不在受到他的 cause 影响了。

image.png

下图中, 当对 X_{4} 进行干预时, 指向它的箭头也消失了。

image.png

注意,以下两种写法代表不同的意思

例3 肾结石

这里给出了因果模型, 假设它已知。 在这里, 治疗方案(treatment)会受到结石大小影响(大结石用贵方案, 小结石用便宜的方案)。 治疗结果(recovery)同时受到结石大小(size of stone),和治疗方案(treatment)影响。 这里假设结石越大,治疗结果; 贵的方案,治疗结果好。

image.png

当干预了治疗方案(treatment)以后, 上面的因果图就变成了下面的图

image.png

下图中, 给出了 A , B 方案的数值, 已经干预前后的因果图。

注意1: A , B 方案出现了博克森悖论, 在单项上(Small Stone & Large Stone) A方案都好于B方案, 但是在总体治疗效果上 B 方案却优于 A 方案。

注意2: 下图中,存在 P(R|S, T) = P_{do(T := A)}(R| S, T) 也就是说, 对于 Recovery 来说, 是否控制 Treatment , 并不会影响他和 结石大小(size of stone)和治疗方案(treatment)的关系。

image.png

下图计算了, 当干预 T=A时 ,病人痊愈(Recovery = 1) 的期望.
计算结果

这意味着, 治疗方案 A要优于 治疗方案B

注意 1: 这里用到了上面 提到的关系式 P_{do(T := A)}(R| \cdot)= P(R| \cdot, T=A)
通过消除 do(\cdot) 运算符, 使得可以计算干预后的期望值 E_{do(T := A)}

注意 2: 从上图推导出来

注意 3: 基于干预的期望 E_{do(T := A)} , E_{do(T := B)} 得出的结论是 A 的疗效更好。 而基于观察 (P(R=1 | T=A), P(R=1 | T=B) )得出的结论是 B 疗效好。 两个结论是对立的。 而仔细看分项目时(Small Stone & Large Stone), 每个分项目又都是 A 好。 正确的答案是 A好, 这里存在博克森悖论。 导致(P(R=1 | T=A), P(R=1 | T=B) )得出的结论是 B 疗效好的原因在于, B方案治疗大大量的 Small Stone (容易的病例)。 由此可以得出:
基于控制得出的结论, 比观察得出的结论更靠谱

image.png

由上面式子引出的定义(来源于 Perl 的书)

image.png
关于因果强弱的定义

讲着给出了关于Casual 强弱的定义
C_{X->Y} := \frac{\partial}{\partial x} E_{do (X := x)}[Y]

在干预X的情况下, 当X变动一点点时, Y变化越大 C越大, 意味着 X, Y 的因果强度越大。

例4

在本例中, 如果要测算 X 对Y的影响, 不能直接用回归 Y \sim X 。因为存在一个后面路径:X \leftarrow A \rightarrow K \rightarrow Y , 这种情况下, 需要在后面路径上的一点,进行干预, 比如 A, K

image.png
例5

这个例子, 提到在 1950年代, 一个关于吸烟和肺癌关系的质疑, 就是认为存在同时影响吸烟 (Smoking) 和 肺癌(Cancer)的因素, 而当时提到的X因素是基因。 如果存在一种基因, 一方面导致携带该基因的人爱抽烟, 同时也更容易患肺癌, 那么就不能说吸烟导致了肺癌。 如果这种基因存在, 而且有效, 那么就是 吸烟基因同时导致了吸烟和肺癌。 而在1950年代, 基因只是被发现, 并无法检测, 所以这就给禁烟造成了很大的困扰。

image.png
例6

James Lind 利用随机实验治疗坏血病的例子。 只要进行随机,就可以斩断所有 X Parents 的影响, 从而得出正确的关系。

image.png

最后,给了一个关于 因果模型等价的定义 Equivalence of causal model

image.png
上一篇下一篇

猜你喜欢

热点阅读