常用的nlp工具

2018-03-28  本文已影响0人  Babyzpj

转自:https://www.zhihu.com/question/19929473

最近我们实验室整理发布了一批开源NLP工具包,这里列一下,欢迎大家使用。未来不定期更新。

2016年3月31日更新,在THULAC新增Python版本分词器,欢迎使用。

中文词法分析

THULAC:一个高效的中文词法分析工具包

包括中文分词、词性标注功能。已经提供C++、Java、Python版本。

中文文本分类

THUCTC: 一个高效的中文文本分类工具

提供高效的中文文本特征提取、分类训练和测试功能。

THUTag: 关键词抽取与社会标签推荐工具包

GitHub - YeDeming/THUTag: A Package of Keyphrase Extraction and Social Tag Suggestion

提供关键词抽取、社会标签推荐功能,包括TextRank、ExpandRank、Topical PageRank(TPR)、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。

PLDA / PLDA+: 一个高效的LDA分布式学习工具包

https://code.google.com/archive/p/plda/

知识表示学习

知识表示学习工具包

GitHub - Mrlyk423/Relation_Extraction: Knowledge  Base Embedding

包括TransE、TransH、TransR、PTransE等算法。

考虑实体描述的知识表示学习算法

GitHub - xrb92/DKRL: Representation Learning of Knowledge Graphs with Entity Descriptions

词表示学习

跨语言词表示学习算法

Learning Cross-lingual Word Embeddings via Matrix Co-factorization

主题增强的词表示学习算法

GitHub - largelymfs/topical_word_embeddings: A demo code for topical word embedding

可解释的词表示学习算法

GitHub - SkTim/OIWE: Online Interpretable Word Embeddings

考虑字的词表示学习算法

GitHub - Leonard-Xu/CWE

网络表示学习

文本增强的网络表示学习算法

GitHub - albertyang33/TADW: code for IJCAI2015 paper "Network Representation Learning with Rich Text Information"

另外还有:(https://github.com/FudanNLP/fnlp

上一篇下一篇

猜你喜欢

热点阅读