机器学习与数据挖掘

搜索引擎Indri系列:检索 (Retrieval)

2017-02-24  本文已影响0人  我就爱思考

query parameter file 中的参数写在xml格式的文本中。下面详细说明参数的使用方法。

<parameters>          
    <rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule>  
    <index>/home/Index</index>
    <count>1000</count>
    <query>  
        <number>51</number>  
        <text>#combine(Airbus Subsidies)</text>
        <workingSetDocno>clueweb09-en0000-00-00004</workingSetDocno>    #指定该参数后,query evaluation将在这些文档中进行
        <workingSetDocno>clueweb09-en0000-00-00005</workingSetDocno
        <workingSetDocno>clueweb09-en0000-00-00006</workingSetDocno>
        </query>  
    <query>  
        <number>52</number>  
        <text>#combine(South African Sanctions)</text>
    </query> 

    <fbDocs>10</fbDocs>
    <fbTerms>20</fbTerms>
    <fbMu>0</fbMu>
    <fbOrigWeight>0.5</fbOrigWeight>

    <trecFormat>true</trecFormat>
    <queryOffset>1</queryOffset>
    <runID>indri_query_test</runID>
</parameters>  

Retrieval model

<rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule> #Jelinek-Mercer
<rule>method:dirichlet,mu:2500</rule> #Dirichlet
<rule>method:twostage,mu:2500,lambda:0.4</rule> #Two-Stage
<baseline>tfidf,k1:1.2,b:0.75</baseline> # TF-IDF
<baseline>okapi,k1:1.2, k3:7, b:0.75</baseline> #BM25

注意这里的值均为Indri默认值。

Feedback Model

 fbDocs:指定用于Feedback Model的文档数,整型。
fbTerms:指定用于Feedback Model的词数,整型。
fbMu:Feedback Model中会使用Language Model进行第一次检索,这里的mu值就是Language Model的参数,默认为0,浮点型。
fbOrigWeight:指定原查询的词与扩展的词的权重。默认为0.5,浮点型。

参考文献:

  1. https://sourceforge.net/p/lemur/wiki/IndriRunQuery/
  2. http://lemur.sourceforge.net/indri/IndriRunQuery.html
  3. https://sourceforge.net/p/lemur/wiki/Indri%20Retrieval%20Model/
  4. http://lemur.sourceforge.net/indri/IndriParameters.html
上一篇 下一篇

猜你喜欢

热点阅读