自然语言处理的思想整理
这篇是草稿,待看完更多书后统一整理。建议网友先看托马斯•科弗的《信息论基础》。语言处理又是和弗里德里克•贾里尼克这位大师紧密联系在一起的。
语言编码首先是词的编码规则,再是语法的编码规则。
词的编码规则有声码即拼音文字,形码,量码即数字。
ictclad对文本集合预处理,包括对文本进行分词和词性标注,之后识别文本集合的人名,地名,组织机构。然后应用tf-idf对文本中的所有词项权值计算,选出关键词。
语法编码:从规则到统计
词是表达语义的最小单位。最容易的分词方法是查字典,梁南元教授提出来的。语言的歧义是分词的阻碍。现在最好的分词是清华大学郭进博士提出来的。
说到统计,得谈到概率。
我们常说信息很多,那到底有多少呢?如何量化?
某个角度上讲信息量取决于不确定性的多少。也要通过分组和结合概率算。
信息处理,很大问题上都在解决不确定性。如何解决和处理二义性?当获取的信息与研究事物有相关关系时,就可以减少。也就是利用相互关系原理,利用相关的信息。
统计一方面可以衡量某一个算法或者解决方案的好坏,也就是找出最优解
概率统计中的推理中有,不得不提到布尔运算。
逻辑运算有三个基本的,与或非。一定要深刻理解啊!!
搜索引擎
搜索引擎的原理:自动下载网页,建立索引,根据相关性进行排序。
建立最简单的索引结构是每一篇文献都对应一个二进制数,1代表这个文献有这个关键词,0代表没有。有多少文献就有多少位数,用很长的二进制字符串表示一个关键词是否出现在每篇文献中。
于是,搜索引擎的索引就变成一张大表,每一行对应一个关键词,每个关键词后面跟着一组数字,是包含该关键词的文献序号。
图论的遍历算法要好好看啊,思想精髓要把握住啊。。广度遍历和深度遍历。
网络爬虫,使用哈希表存储网页是否下载过。
网络爬虫的解析程序看看。
如何计算网页的权重和排序网页?破解权重的方法是转成二维矩阵相乘,然后迭代,并且利用稀疏矩阵思想。
遍历中的图论:主要解决是什么问题?是识别。
有限状态机和动态规划好好看看。
先解决80%的问题,后解决20%的问题。
计算机不需要学习人的做法,就像飞机不必像鸟一样飞行?我不能理解,我要好好想想为什么?
余弦定理与相关性:余弦值越大,相关性越大。
先计算两两网页的相似性,如果在一个阀值内就合并,基于这个分类完后再两两合并。时间成本高。
奇异值与相关性
矩阵与相关,分类:向量夹角越大时,相关性越差
相似性:信息指纹与相似哈希表
反作弊:通信模型和图论。
记得看看上面两个。
数学模型与香农第一定理
贝叶思网络与分类,主题:
每一个状态只与它直接相连的状态有关,和它间接相连的状态没有直接关系,那么它就是贝叶斯网络。
条件随机场与句法分析
图论中的维特比算法
利用动态规划解决最短路径问题