Django 博客搭建项目（11）-支持搜索中文

2020-09-01 本文已影响0人零星瓢虫

上一篇文章已经实现了英文关键字对应博客的 title 和 content 的搜索数据，但是发现通过中文搜索无法搜索到数据。那么本篇主要实现搜索模块对中文关键字搜索的支持。

首先，需要创建对应支持中文搜索的库 jieba 库：

pip install jieba

在 jieba 库对应的 github 地址查看 jiaba 库是如何使用的。

https://github.com/fxsjy/jieba

*   支持四种分词模式：
    *   精确模式，试图将句子最精确地切开，适合文本分析；
    *   全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
    *   搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
    *   paddle模式，利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny，`pip install paddlepaddle-tiny==1.6.1`。目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本，请升级jieba，`pip install jieba --upgrade` 。[PaddlePaddle官网](https://www.paddlepaddle.org.cn/)
*   支持繁体分词
*   支持自定义词典
*   MIT 授权协议

# encoding=utf-8
import jieba

jieba.enable_paddle()# 启动paddle模式。 0.40版之后开始支持，早期版本不支持
strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]
for str in strs:
    seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

#对应输出
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】： 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

可以看到 jieba 库对应四种切割模式可以将一段中文以不同形式切割成不同词，而这些词就可以作为搜索的关键字进行搜索。

接下来需要在 post 应用模块下创建 tokenizer.py 文件，tokenizer.py 为自定义文件:

import jieba
from whoosh.analysis import Tokenizer, Token


class ChineseTokenizer(Tokenizer):
    def __call__(self, value, positions=False, chars=False,
                 keeporiginal=False, removestops=True,
                 start_pos=0, start_char=0, mode='', **kwargs):

        t = Token(positions, chars, removestops=removestops, mode=mode,
                  **kwargs)
        seglist = jieba.cut(value, cut_all=False)  # (精确模式)使用结巴分词库进行分词
        # seglist = jieba.cut_for_search(value)  #(搜索引擎模式) 使用结巴分词库进行分词
        for w in seglist:
            print w
            t.original = t.text = w
            t.boost = 1.0
            if positions:
                t.pos = start_pos + value.find(w)
            if chars:
                t.startchar = start_char + value.find(w)
                t.endchar = start_char + value.find(w) + len(w)
            yield t  # 通过生成器返回每个分词的结果token


def ChineseAnalyzer():
    return ChineseTokenizer()

tokenizer.py 这里使用了 jieba 的精确模式去处理中文的分词，实则是一个工具包。这里代码不用手写，直接拿来使用即可。

欢迎关注公众号【python面面观】，在聊天对话框回复「博客」获取源码地址以及其他 python 相关知识。

完成了中文分词，接下来得让这个分词工具和搜索库进行关联。

拷贝 python 安装目录下的 whoosh_backend.py 文件到 post 模块目录下，我这里的对应目录为 E:\python\python37\Lib\site-packages\haystack\backends，同时改名为 whoosh_cn_backend.py。

接下来，在 whoosh_cn_backend.py 搜索 build_schema 关键字进行更改关联上面定义的中文分析器。

    #导入中文分析器
    from post.tokenizer import ChineseAnalyzer
    schema_fields[field_class.index_fieldname] = TEXT(stored=True, analyzer=ChineseAnalyzer(), field_boost=field_class.boost, sortable=True)

同时，setting.py 的搜索引擎需要更改为自定义的 whoosh_cn_backend 搜索引擎。

# 指定生成的索引路径
HAYSTACK_CONNECTIONS = {
    'default': {
        # 修改引擎
        'ENGINE': 'post.whoosh_cn_backend.WhooshEngine',
        'PATH': os.path.join(BASE_DIR, 'whoosh_index'),
    },
}

重新生成索引文件。

python manage.py rebuild_index

生成之后，可以看到在控制台有对应中文分词的打印。最后运行项目，看一看搜索模块是否已经可以支持中文分词的搜索。

效果图_01.png

此时可以看到搜索 "绘制"已经可以匹配到对应 title 中有 “绘制” 的博客进行显示。

Django 博客搭建项目（11）-支持搜索中文

猜你喜欢

热点阅读