Pytorch-nlp开源工具(一)
2018-04-16 本文已影响258人
吐舌小狗
摘要:本分主要分享Pytorch NLP开源工具, PyTorch-NLP或torchnlp简称为神经网络层,文本处理模块和数据集库,旨在加速自然语言处理(NLP)的研究。
微信公众号:Pytorch源码学习
本公众号关注pytorch在NLP, CV等方向的应用,涉及源码,和相关论文阅读
如有问题或建议,请联系微信:ymljdi
,加微信请备注:Pytorch源码
文章中涉及到的代码如果观看不便,可以左右滑动
本分主要分享Pytorch NLP开源工具, PyTorch-NLP或torchnlp简称为神经网络层,文本处理模块和数据集库,旨在加速自然语言处理(NLP)的研究。
地址:扫描下方的二维码
开源工具的地址
必备条件
Python 3.5+ and PyTorch 0.2.0 or newer
可以通过下面的方式进行安装:
pip install pytorch-nlp
加载IMDB数据集
from torchnlp.datasets import imdb_dataset
# Load the imdb training dataset
train = imdb_dataset(train=True)
train[0] # RETURNS: {'text': 'For a movie that gets..', 'sentiment': 'pos'}
除此之外还有以下的数据集:
WMT2014
WMT2016
SNLI
SimpleQuestions
WikiText-2
Penn Treebank dataset
Universal Dependencies - English Dependency Treebank dataset
Text REtrieval Conference (TREC) Question Classification dataset
Reverse dataset
Count dataset
Zero dataset
Stanford Sentiment Treebank dataset
具体的使用方法可以参考上面二维码的地址
使用预训练词向量
rom torchnlp.word_to_vector import GloVe
vectors = GloVe()
print(vectors['hello'])
>> -1.7494
0.6242
...
-0.6202
2.0928
[torch.FloatTensor of size 100]