读书笔记:《数学之美》

2019-12-28  本文已影响0人  IT_小马哥

数学之美

三 语言模型

假定S表示某一个有意义的句子,由一连串特定顺序排列的词W_1,W_2,...,W_n组成,则S出现的概率P(S):
P(S) = P(W_1,W_2,...,W_n)
S序列出现的概率等于每一个词出现的条件概率相乘:
P(W_1,W_2,...,W_n) = P(W_1)*P(W_2|W_1)*P(W_3|W_1,W_2)*...*P(W_n|W_1,W_2,...,W_{n-1})

二元模型:

根据大数定理:只要统计量足够,相对频度就等于概率
P(W_{i-1},Wi) = W_{i-1}W_i联合出现的次数 / 样本总数
P(W_{i-1})= W_{i-1}出现的次数 / 样本总数

在语言统计中,零概率问题是无法回避的,我们称之为:不平滑

对于没有看见的事,我们不能认为发生的概率是零,因此我们从概率的总量中分配一个很小的比例给予这些没有看见的事件,这样一来看见的事件的概率总和就要小于1了,因此需要将所有看见的事的概率调小一点。

d_r= (r+1) * N_{r+1} / N_r
显然
N = \sum_{r} {d_r * N_r}

zifp定律:标识符出现的频率与其在排序列表中的排名或位置成反比。即出现一次的单词的数量多于出现两次的,两次多于三次的,以此类推

分词的一致性问题

  1. 错误。越界错误:北京大学生,分成“北京大学”“生”;覆盖错误:将人名拆开
  2. 颗粒度不一致。 主要在于人们对词颗粒度的认识问题,同一个句子有不同的分词方法。比如:清华大学,可以分为:“清华”、“大学”或者“清华大学”

五 隐含马尔可夫模型

通信模型

p(s_1,s_2,...|o_1,o_2,...) = \frac{P(o_1,o_2,...|s_1,s_2,...) * P(s_1,s_2,...)}{P(o_1,o_2,...)}

马尔可夫假设

符合马尔科夫假设的随机过程称为:马尔可夫链

隐含马尔可夫模型

隐含马尔可夫模型的训练 P57

  1. 给定一个模型,如何计算某个特定的输出序列的概率
    • Forward-Backward算法
  2. 给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的状态序列
    • 维特比算法
  3. 给定足够量的观测数据,如何估计隐含马尔可夫模型的参数
    两个参数:
    • 转移概率:从一个状态S_{t-1}进入到状态S_t的概率P(S_t|S_{t-1})
    • 生成概率:每个状态S_t产生输出符号O_t的概率P(O_t|S_{t})
      训练模型的方法:
    • Baum-Welch(鲍姆-韦尔奇)算法:首先找到一个能够产生输出序列O的模型参数,然后不断的迭代,直到一个局部最优。

六 信息的度量和作用

信息熵

条件熵

互信息

I(X;Y) = \sum_{x∈X,y∈ Y} \frac{P(x,y)}{P(x) * P(y)}

其实:在了解其中一个Y的前提下,对消除另一个X不确定性所提供的信息量。
I(X;Y) = H(X) - H(X|Y)

X,Y完全相关,其值为1,完全无关,其值为0

相对熵(交叉熵)

利用相对熵就可以获得TF_IDF

七 贾里尼克和现代语言

八 简单之美——布尔代数和搜索引擎的索引

九 图论和网络爬虫

十 PageRank——Google的民主表决式网页排名技术

十一 如何确定网页和查询的相关性

TF-IDF的信息论依据

十二 地图和本地搜索的最基本技术——有限状态机和动态规划

十三 Google AK-47的设计者——阿米特.辛格博士

十四 余弦定理和新闻分类

  1. 计算所有新闻之间的两两余弦相似性,把相似性大于某一个阈值的新闻合并成一个小类,这样N篇新闻就被合并成N_1个小类,N_1 < N
  2. 把每个小类中的所有新闻作为一个整体,计算小类的特征向量,在计算小类之间两两的余弦相似性,然后合并成大一点的小类,如有N_2,N_2<N_1
  3. 一直这样做下去,当某一个类太大时,停止迭代

十五 矩阵运算和文本处理中的两个分类问题

计算大量新闻的相关性

十六 信息指纹及其应用

相似哈希(simhash)

十七 密码学的数学原理

公开密钥

  1. 找两个很大的素数(质数)P,Q,然后计算他们的乘积
    N= P * Q\\ M= (P-1) * (Q-1)
  2. 找一个和M互素的整数E,也就说ME除了1以外没有公约数
  3. 找一个整数D,使得E * D除以 M1,即 E * D mod M =1
    以上:E是公钥,D是私钥
  4. 用公式对X加密,得到密码Y
    X^E mod N = Y
  5. 根据费尔马小定理,可以解密出X
    Y^D mod N =X

十八 搜索反引擎作弊问题

十九 谈谈数学模型的重要性

二十 不要把鸡蛋放到一个篮子里——谈谈最大熵模型

最大熵

最大熵模型的一个示例:根据前两个词和主题词预测下一个词的最大熵模型

P(w_3|w_1,w_2,s)= \frac {1 }{Z(w_1,w_2,s)} e^{\lambda_1(w_1,w_2,w_3) +\lambda_2(s,w_3) }
其中:Z是归一化因子,用于保证概率加起来等于1

二十一 拼音输入法的数学原理

拼音转汉字的算法也是动态规划

拼音输入法就是要根据上下文在给定的拼音条件下找打一个最优解
w_1,w_2,...,w_n = ArgMaxP(w_1,w_2,...,w_n|y_1,y_2,...,y_n)
其中Y是使用者输入的拼音串,W是得到的汉字结果。

个性化的语言模型

P(W_i|W_{i-1}) = \lambda(w_{i-1}) * P_0( w_i |w_{i-1})+(1-{\lambda(w_{i-1})}) * P_1(w_i |w_{i-1})
这种线性插值的模型比最大熵模型效果略差,但是能得到大约80%的收益

二十三 布隆过滤器

二十四 马尔可夫链的扩展--贝叶斯网络

贝叶斯在词分类中的应用

二十五 条件随机场和句法分析

二十六 维特比和他的维特比算法

二十七 再谈文本自动分类问题——期望最大化算法

二十八 逻辑回归与广告搜索

将一个事情出现的概率适应到一条逻辑曲线上,定义域(-∞,+∞),值域是(0,1)正好可以将其与概率分布联系起来

二十九 各个击破算法和Google云计算的基础

计算复杂度

后记

上一篇 下一篇

猜你喜欢

热点阅读