笔记-注意事项

2022-03-11  本文已影响0人  时光如水_fe87

1.Idf注意事项

    是全局统计特征1.数据量要大;2.分布式存在问题(不同的机器上,同样的词,idf都不同),数据量大差距会小,每天都要更新;3. 我买了一只哈士 奇, 奇怪的奇,这个词会出现idf特别大,idf的前提就是粉刺要准,分类器要一致。

倒排索引:数据库中一般是以文档 id作为索引,文档内容为记录。而倒排索引是以单词或者文档作为索引,文档id做为记录。这样方便地通过单词或者记录找到文档。

1.计算tf-idf

        tf -- 词在句子中出现的权重 = 词在句子中出现的次数/词总数

         idf * tf = 一个词在句子中的权重 

       一个词 信息量高,同时在句子中出现的次数多,就权重大!

在长篇文章中,tf可以作为词的权重,但是在问答系统中,都是短句子,每个词出现一次,是不是tf就失效了呢?

2.计算word2vec

        每个词都是一个向量,如果一个词比较重要,那么它和其他词的距离比较接近。

训练word2vec不仅可以用问答预料,还可以用领域内其他预料

3.计算倒排索引

        倒排索引技术可以快速从百万级的语料库中检索候选和得分,并根据分数进行截断,取topk输入给下一环节。

idf存在什么问题?有没有改进空间?

作业:自己实现idf的替代方案!

提取关键词 无论是tf还是word2vec本质上都是一个词袋模型

做一个分类模型:lstm。

只有理解原来才能活学活用

上一篇下一篇

猜你喜欢

热点阅读