Jetpack -room （二）安卓全文检索

2019-06-23 本文已影响0人 Active_Loser

ROOM不支持icu分词，默认分词对中文支持很差，不考虑自定义分词切减少对Room的入侵，，推荐结合使用WCDB，使用方法与Room的使用一致，最后使用腾讯的mmicu分词器对中文分词。
tip：使用Lucene结合JK分词也可以实现全文检索，测试结果7000条数据首次检索3秒左右，其他情况下1秒内完成检索，适用包后续更新链接。

一、简介

最近遇到特殊需要，需要对本地文件索引，安卓端建议使用FTS。
FTS介绍：fts
FTS版本如下所示，目前使用较多的FTS4，Room没有对于FTS5的支持。

选项：

compress=、uncompress= 用于支持压缩和解压缩
content= 用于创建无正文表（只有索引）和外部正文表（正文来自其他表而非虚表本身）等
matchinfo= 用于以FTS3方式存储FTS4，忽略FTS4额外所需的信息，但是功能也会因此受限
notindexed= 指定某个列为非索引列
prefix= 额外为指定自己的前缀创建索引
tokenizer :FTS4提供了四种系统分词器：simple、porter、icu、unicode61，中文推荐使用icu

类型	描述
simple	根据单词进行分词，不区分大小写且不支持中文
porter	与simple一样，但是不区分单词语义（搜索do时，能搜索到do、did、does）
icu	将输入文本根据ICU规则寻找单词边界和丢弃任何标记，支持中文，可拓展（ROOM支持，建议结合WCDB使用）
unicode61	根据空格和标点符号进行分词，依赖于Unicode Version 6.1标准，支持中文

@Fts4(tokenizer = FtsOptions.TOKENIZER_SIMPLE)

1、*创建FTS

@Fts4(tokenizer = FtsOptions.TOKENIZER_SIMPLE)
@Entity
public class FTS {
    public String title;

    public FTS(String title) {
        this.title = title;
    }
}

2、使用
关于FTS的增删改这里就不多介绍了（索引：文件解析解析获取内容即可），与基本的Room操作相同，这里主要介绍FTS的查询，线面的内容引自FTS。
更多使用和介绍可以查看官网：FTS
基本查询

SELECT * FROM mail WHERE rowid = 15;                -- Fast. Rowid lookup.
SELECT * FROM mail WHERE body MATCH 'sqlite';       -- Fast. Full-text query.
SELECT * FROM mail WHERE mail MATCH 'search';       -- Fast. Full-text query.
SELECT * FROM mail WHERE rowid BETWEEN 15 AND 20;   -- Fast. Rowid lookup.
SELECT * FROM mail WHERE subject = 'database';      -- Slow. Linear scan.
SELECT * FROM mail WHERE subject MATCH 'database';  -- Fast. Full-text query.

短语查询：短语查询以指定的顺序检索包含指定的术语集或术语前缀的所有文档，而不包含中间标记。

SELECT * FROM docs WHERE docs MATCH '"linux applications"';
SELECT * FROM docs WHERE docs MATCH '"lin* app*"';

*Near查询
推荐使用：AND运算符确定两组文档的交集；OR运算符计算两组文档的并集；NOT运算符；
3、切片(Snippet )：片段功能用于创建文档文本的格式化片段，以作为全文查询结果报告的一部分显示。
这个函数支持可变参数，我们可以给它传1至6个参数。6个参数按照从0开始编号说明如下： 0：必须使用隐藏列，也就是要查询的虚表名，比如上面的message。
1：返回值中被命中目标开始处的标记文本，默认为“”
2：返回值中被命中目标结束处的标记文本，默认为“”
3：被省略文本的标识，比如“...”
4：强制指定从哪个列提取切片文本，默认为-1，表示可从任意列提取
5：此值的绝对值表示返回值中大致包含多少个单词，最大可取64，默认-15

示例文本：
 During 30 Nov-1 Dec, 2-3oC drops. Cool in the upper portion, minimum temperature 14-16oC 
  and cool elsewhere, minimum temperature 17-20oC. Cold to very cold on mountaintops, 
  minimum temperature 6-12oC. Northeasterly winds 15-30 km/hr. After that, temperature 
  increases. Northeasterly winds 15-30 km/hr. 

//输出："<b>...</b>cool elsewhere, minimum temperature 17-20oC. <b>Cold</b> to very  <b>cold</b> on mountaintops, minimum temperature 6<b>...</b>".
SELECT snippet(text) FROM text WHERE text MATCH 'cold';
//输出：  "...the upper portion, [minimum] [temperature] 14-16oC and cool elsewhere,   [minimum] [temperature] 17-20oC. Cold..."
SELECT snippet(text, '[', ']', '...') FROM text WHERE text MATCH '"min* tem*"'

4.测试
创建dao，编写输入和查询语句

@Dao
public interface FTSDao {

    @Insert(onConflict = OnConflictStrategy.REPLACE)
    void insertFTS(FTS fts);

    @Query("select * from FTS where title match :query")
    List<FTS> queryAll(String query);

    //测试一直返回为空，没搞明白原因，下面可能是原因
    //如果在使用“通过rowid查询”或“线性扫描”策略的SELECT中使用，则代码片段都会返回空字符串
    @Query("select snippet(fts, '<b>', '</b>', '...', -1, 15) from fts where title match :query")
    List<FTS> queryAllSnippet(String query);
}

我们看到，查询6000条数据，耗时74毫秒，这个效率也很高了。

AppDatabase appDatabase = AppDatabase.getSingleton(this);
for (int i = 0; i < 6000; i++) {
  appDatabase.ftsdao().insertFTS(new FTS(i + "Room是安卓中SQLite上的一个抽象层应用框架，可以更轻松、更好地保存数据。"));
}

long timeMillis = System.currentTimeMillis();
List<FTS> sqLite = appDatabase.ftsdao().queryAll("SQLite");
Log.i(TAG, "查询数量: " + sqLite.size());
Log.i(TAG, "时间: " + (System.currentTimeMillis() - timeMillis));

输出
2019-06-23 22:17:04.886 4536-4536/com.active.loser.jetpack I/MainActivity: 查询数量: 6000
2019-06-23 22:17:04.887 4536-4536/com.active.loser.jetpack I/MainActivity: 时间: 74

Jetpack -room （二）安卓全文检索

一、简介

猜你喜欢

热点阅读