NLP从入门到精通

【Note】bk - Python NLP

2019-02-28  本文已影响0人  火禾子_

ch1 nltk_data 的下载

1、自动下载安装

import nltk 
nltk.download()

这种方式一直没下载成功,可能是因为网络原因。

2、手动载入安装
(1)国内有人放到了 网盘链接。下载之后放在哪里是个问题。别担心,它会自己检测,键入 from nltk.book import *,结果会报错,其中有一段,如下

  Searched in:
    - '/Users/yarkona/nltk_data'
    - '/Users/yarkona/anaconda3/nltk_data'
    - '/Users/yarkona/anaconda3/share/nltk_data'
    - '/Users/yarkona/anaconda3/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'

我们只需要把下载下来的 nltk-data.zip 解压到以上的一个目录,就可以了。
(2)由于很多链接容易年久失修,因此找到了 NLTK Corpus,应该比书中所用的数据集更多,列出如下方便参考:

ch3 处理原始文本

  1. 处理 url 中既包含中文也包含英文的情况
import urllib # 仅引用这一句会报错,因为它的子模块并没有被引入
from urllib import parse
from urllib import request
search_word = '机器学习'
search_word = urllib.parse.quote(search_word)
url = 'https://www.baidu.com/s?wd=%s' % search_word
html = urllib.request.urlopen(url).read()
print(html[:50])
上一篇下一篇

猜你喜欢

热点阅读