DokuWiki集成中文分词SCWS

2019-05-21  本文已影响0人  大大大大槐树

SCWS

简介

SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。
SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序,支持的 中文编码包括 GBKUTF-8 等。此外还提供了 PHP 扩展模块,可在 PHP 中快速 而方便地使用分词功能。

安装

目前 scws 只提供源码包,和大多数 GNU 软件的编译安装步骤一样。下面我们以 Linux 系统为例, 要求装有 gcc 编译器。Windows 上则建议用 cygwinmingw 环境编译。

  1. 取得 scws 源码并解压到当前目录

    wget -q -O - http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 | tar xjf -
    
    
  2. 进入源码目录配置和编译

    cd scws-1.2.3 ; ./configure ; make install
    
    

    注意:这是以默认方式安装到 /usr/local 目录。详细配置参数执行 ./configure --help 查看。

php扩展

在 UNIX 类的系统上,请直接从源码方式编译安装 PHP 扩展;对于 windows 系统,请直接下载我们编译好的
php_scws.dll 即可。

假定您已经将 scws 安装到 $prefix 目录,还要求系统环境装有 autoconf automake 及 phpize 工具。

  1. 进入源码目录的 phpext/ 并执行 phpize (位于 php 安装目录下的 bin 目录里)

  2. 执行 configure 进行配置和基础检测,假定您的 php 安装在 $php_prefix 目录

    ./configure --with-scws=/usr/local --with-php-config=$php_prefix/bin/php-config
    

    如果php不是通过编译安装,可通过whereis php-config查看位置

  3. 先编译然后以 root 身份安装

    make
    sudo make install
    
  4. 在 php.ini 中加入以下内容

    [scws]
    ; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
    ; 再把 extension = scws.so 或 php_scws.dll 指定绝对路径。
    extension = scws.so
    scws.default.charset = utf8
    scws.default.fpath = /usr/local/etc
    
  5. 命令行下执行 php -m 就能看到 scws 了,phpinfo() 也会包含关于 scws 的信息。

  6. windows 下的 php 扩展是采用 dll 库文件。我们已预编译若干个版本,采用 zip 压缩位于
    phpext/win32/php_scws-1.2.1-win32.zip,请直接解压后选择相应版本的 php_scws.dll
    将它复制到 PHP 的扩展目录中(通常是 extensions 或 ext 目录),然后参考上面的方式修改 php.ini

字典安装

[hightman@d1 /usr/local/etc]$ wget http://www.xunsearch.com/scws/down/scws-dict-chs-gbk.tar.bz2
[hightman@d1 /usr/local/etc]$ wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
[hightman@d1 /usr/local/etc]$ tar xvjf scws-dict-chs-gbk.tar.bz2
[hightman@d1 /usr/local/etc]$ tar xvjf scws-dict-chs-utf8.tar.bz2

DokuWiki分词修改

修改inc/fulltext.php文件中的内容:

//注释掉这行
//$terms = preg_split('/(-?".*?")/u', utf8_strtolower($query), -1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);

// 以下部分为新添加内容
$so = scws_new();
$so->set_charset('utf8');
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
$so->send_text($query);
$terms = array();
while ($tmp = $so->get_result()) {
    $arrlength=count($tmp);
    for($x=0;$x<$arrlength;$x++) {
        array_push($terms, $tmp[$x]["word"]);
    }
}
$so->close();

end

以上完成后重启php-fpm。

上一篇 下一篇

猜你喜欢

热点阅读