软件测试Python专家之路python数据分析人工智能机器学习程序员

Python自然语言工具库NLTK快速入门教程1简介

2018-12-20  本文已影响42人  python测试开发

什么是自然语言处理?

自然语言处理是指通过软件或机器理解并操作文本或语音。 人类互动,了解彼此的观点,并用适当的答案作出回应。 在NLP中,这种交互,理解,响应是由计算机而不是人类完成的。

什么是NLTK?

NLTK代表Natural Language Toolkit。它包使计算机理解人类语言并使用适当的响应回复它。 本教程中将讨论标记,粉刺,词形还原,标点,字符计数,字数统计等。

自然语言库介绍

另外还有jieba、SnowNLP、thulac等系列中文库,可以参考下:https://github.com/china-testing/python-api-tesing

NLTK安装

pip3 install nltk

下载数据集

import nltk
nltk.download ()
image.png

验证数据集

>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

参考资料

讨论qq群144081101 591302926 567351477

本文最新版本地址

本文涉及的python测试开发库谢谢点赞!

本文相关海量书籍下载

分词快速入门


>>> from nltk.tokenize import RegexpTokenizer
>>> tokenizer = RegexpTokenizer(r'\w+')
>>> filterdText=tokenizer.tokenize('Hello https://china-testing.github.io/, You have build a very good site and I love visiting your site.')
>>> print(filterdText)
['Hello', 'https', 'china', 'testing', 'github', 'io', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', 'visiting', 'your', 'site']

RegexpTokenizer删除所有表达式,符号,字符,数字或任何你去掉的东西。

上一篇 下一篇

猜你喜欢

热点阅读