第六章:信息的度量和作用
2019-01-29 本文已影响0人
dreampai
信息量等于不确定性的多少。
变量不确定性越大,熵越大。
image.png
条件熵
image.png
信息的作用在于消除不确定性,自然语言处理大量问题就是寻找相关的信息。
互信息:
互信息的概念作为两个随机事件“相关性”的量化度量。
互信息的取值在 0 和 min(H(X),H(Y)) 之间的函数,当 X 和 Y 完全相关时,它的取值为1,当二者完全无关时,它的取值为 0.
image.png
image.png
相对熵
相对熵也用来衡量相关性,但和变量的互信息不同,它用来衡量取值为正数的函数的相似性。 image.png
总结:
- 信息熵
- 条件熵
- 相对熵
- 复杂度:直接衡量模型的好坏,在给定上下文的条件下,句子中每个位置平均可以选择的单词数量。一个模型的复杂度越小,每个位置的词就越确定。模型越好。