Lucene fdt 文件格式详解

2019-10-12  本文已影响0人  ni_d58f

本文及后面关于Lucene的文章所采用的lucene 版本为8.1.0.

1. 什么是fdt文件

fdt文件主要作用是保存field信息元始信息, 在lucene中,诸如StringField/TextField(原始text,而不是分词后的term), ByteField等都会将原始field 内容保存在该文件中。 Lucene在通过索引拿到docId时,对于非point类型来说,接着就是从fdt文件中加载docId处的内容以获取doc值。


2. fdt文件格式

fdt文件格式

3. 测试代码及结果

代码请参考Lucene tim文件格式详解的第三部分


4. 范例fdt文件内容

fdt文件.png

5. fdt文件内容分析

5.1 文件头

文件头部分主要内容为标识此文件类型为Lucene50StoredFieldsFast, 源码部分在CompressingStoredFieldsWriter的120行,主要内容如下

  1. 3fd7 6c17 固定头MAGIC
  2. 1cLucene50StoredFieldsFastData长度28, 其中Lucene50StoredFieldsFast中的Fast代表data区采用Fast压缩方式, Data这个代表是data文件,与index文件相对应
  3. 28个字节Lucene50StoredFieldsFastData
  4. 00 0000 01 4个字节的CompressingStoredFieldsWriter.VERSION_CURRENT
  5. 16个字节的segmentId, 这个是随机生成的
  6. 00 segment suffix 长度 0

5.2 fdt data 部分

5.2.1 file meta信息

下面开始写field的具体值

5.2.2 Data 数据区

data数据区以chunk为单位组织起来,主要有chunk header和数据两个部分

1. Chunk header
Chunk header主要记录一个chunk的元数据,主要有:

 //CompressingStoredFieldsWriter
 private static void saveInts(int[] values, int length, DataOutput out) throws IOException {
    assert length > 0;
    //doc 数量为1
    if (length == 1) {
      out.writeVInt(values[0]);
    } else {
      boolean allEqual = true;
      for (int i = 1; i < length; ++i) {
        if (values[i] != values[0]) {
          allEqual = false;
          break;
        }
      }
      //所有的doc的filed num相同,先写一个0, 再写共同的field num
      if (allEqual) {
        out.writeVInt(0);
        out.writeVInt(values[0]);
      } else {
        long max = 0;
        for (int i = 0; i < length; ++i) {
          max |= values[i];
        }
       /*
       采用bit编码, 首先记录需要几个bit表示,然后写每个数值
       假设doc0, doc1, doc2, doc4 的field num 分别为1,2,1,3,则需要2个bit表示,则最终的结果为
       bit size : `0x02`
       bit content: 01, 10, 01, 11 即 `0x67`
       思想如上,更详细内容请参考下面代码
       */
        final int bitsRequired = PackedInts.bitsRequired(max);
        out.writeVInt(bitsRequired);
        final PackedInts.Writer w = PackedInts.getWriterNoHeader(out, PackedInts.Format.PACKED, length, bitsRequired, 1);
        for (int i = 0; i < length; ++i) {
          w.add(values[i]);
        }
        w.finish();
      }
    }
  }

为什么length 是37, 11呢?'lucene test, hello word, nice, nice'长度是35, 'nice haha'长度是9, 加上对应的长度值也应该是36和10,怎么会是37、11呢? 原因: 这个值是meta + data length + data value,meta占一个字节, 详细请参考下一部分

2. data body
body 依次写入每一个doc的每一个field字段内容, 格式请参考fdt格式图

不完整chunk 指的chunk 中doc个数小于128, 一般在手动触发flush、合并的时候会生成不完整的chunk

5.3 footer区

footer区主要有以下内容


觉得本文有帮助的话,请关注我的简书,一同进步!

上一篇下一篇

猜你喜欢

热点阅读