自然语言处理的思想整理

2017-05-16 本文已影响56人徐薇薇

这篇是草稿，待看完更多书后统一整理。建议网友先看托马斯•科弗的《信息论基础》。语言处理又是和弗里德里克•贾里尼克这位大师紧密联系在一起的。

语言编码首先是词的编码规则，再是语法的编码规则。

词的编码规则有声码即拼音文字，形码，量码即数字。

ictclad对文本集合预处理，包括对文本进行分词和词性标注，之后识别文本集合的人名，地名，组织机构。然后应用tf-idf对文本中的所有词项权值计算，选出关键词。

语法编码：从规则到统计

词是表达语义的最小单位。最容易的分词方法是查字典，梁南元教授提出来的。语言的歧义是分词的阻碍。现在最好的分词是清华大学郭进博士提出来的。

说到统计，得谈到概率。

我们常说信息很多，那到底有多少呢？如何量化？

某个角度上讲信息量取决于不确定性的多少。也要通过分组和结合概率算。

信息处理，很大问题上都在解决不确定性。如何解决和处理二义性？当获取的信息与研究事物有相关关系时，就可以减少。也就是利用相互关系原理，利用相关的信息。

统计一方面可以衡量某一个算法或者解决方案的好坏，也就是找出最优解

概率统计中的推理中有，不得不提到布尔运算。

逻辑运算有三个基本的，与或非。一定要深刻理解啊！！

搜索引擎

搜索引擎的原理：自动下载网页，建立索引，根据相关性进行排序。

建立最简单的索引结构是每一篇文献都对应一个二进制数，1代表这个文献有这个关键词，0代表没有。有多少文献就有多少位数，用很长的二进制字符串表示一个关键词是否出现在每篇文献中。

于是，搜索引擎的索引就变成一张大表，每一行对应一个关键词，每个关键词后面跟着一组数字，是包含该关键词的文献序号。

图论的遍历算法要好好看啊，思想精髓要把握住啊。。广度遍历和深度遍历。

网络爬虫，使用哈希表存储网页是否下载过。

网络爬虫的解析程序看看。

如何计算网页的权重和排序网页？破解权重的方法是转成二维矩阵相乘，然后迭代，并且利用稀疏矩阵思想。

遍历中的图论：主要解决是什么问题？是识别。

有限状态机和动态规划好好看看。

先解决80%的问题，后解决20%的问题。

计算机不需要学习人的做法，就像飞机不必像鸟一样飞行？我不能理解，我要好好想想为什么？

余弦定理与相关性：余弦值越大，相关性越大。

先计算两两网页的相似性，如果在一个阀值内就合并，基于这个分类完后再两两合并。时间成本高。

奇异值与相关性

矩阵与相关，分类：向量夹角越大时，相关性越差

相似性：信息指纹与相似哈希表

反作弊：通信模型和图论。

记得看看上面两个。

数学模型与香农第一定理

贝叶思网络与分类，主题：

每一个状态只与它直接相连的状态有关，和它间接相连的状态没有直接关系，那么它就是贝叶斯网络。

条件随机场与句法分析

图论中的维特比算法

利用动态规划解决最短路径问题