top10 NLP library 02

2021-01-07  本文已影响0人  writer_zero

上篇文章介绍了两个通用型的框架,AllenNLP和Fairseq,这篇文章介绍几个常用于NLP预处理的库

Spacy

流行度:5星

官网:https://spacy.io/

在kaggle上最流行的两个NLP库就是Spacy和NLTK,而Spacy比NLTK更新更先进,刚推出时主打的就是工业级的NLP库,它的文档和API设计很漂亮,如果精力有限,建议只学Spacy。使用Spacy可以方便的解决分词、POS tagging、NER等任务,它支持59+语言还提供了一些预训练好的word vector。

NLTK

流行度:5星

官网:https://www.nltk.org/

很多人估计都看过oreilly那本NLP书,其中就是用的NLTK做讲解。不过个人更喜欢Spacy,毕竟后出来的工具想获得大量用户,肯定有它的优势。

TorchText

流行度:4星

官网:https://torchtext.readthedocs.io/en/latest/

这是Pytorch官方支持的一个库,大家知道Pytorch中有torchvision,于是可以猜到torchtext就是要在nlp领域里对标torchvision。如果你使用Pytorch做深度学习,那么torchtext可以很容易的跟pytorch后续模型训练做串接,帮你把文本数据预处理。也可以利用它来使用预训练的word embedings,比如Facebook自家的FastText。这里有个例子:

BERT Text Classification Using Pytorch

译自

[1] https://towardsdatascience.com/top-nlp-libraries-to-use-2020-4f700cdb841f

上一篇下一篇

猜你喜欢

热点阅读