搜索相关

2016-08-11  本文已影响314人  袁一帆

搜索技术

理解用户
理解意图
理解文档
理解场景

query分析

词的粒度

原词:北邮游泳馆
专有名词粒度:北邮羽毛球馆
基本粒度:北邮 羽毛球馆
细粒度:北邮 羽毛球 馆
多粒度:北邮 羽毛 球馆
拓展粒度:球

词的成分

北京邮电大学老食堂餐厅3楼好吃土豆

词表,CRF,句法分析,模板

query改写

query挖掘

Doc分析

Doc分析 - 标签

Doc分析 - UGC

情感分析

User分析

知识图谱

关键词对齐

关键词对齐的目标是得到query和知识库的对齐信息,便于解码时找相应的词语。

查询分析

业务识别

查询串 -> 标签类别 -> 有编码的属性进行解码(店名->Id)

查询分析流程

  1. 归一化,分词
  2. 业务识别
  3. 实体识别
  4. 查询改写:
    • 同义词
    • 上下位词:父类词,子类词扩充
    • 去词改写:留下核心词
    • 相似改写:周杰伦和昆凌的例子
  5. 语义扩展
  6. 意图识别:
    • 商家,位置,行业,产品&服务
    • 每个意图都对应着某些类别的标签
  7. 召回策略
  8. 排序

搜索引导

热词 - 候选集

热词 - 排序策略

未来需要标签化,场景化

smart-box

候选词

召回策略

3种权重依次降低,优先搜索本城市,未命中才扩展全国

排序策略

训练样本:点击的推荐词为正样本,展示了没点的作为负样本
推荐词的特征:周PV,点击下单,转化率,词长度
用户特征:用户距离,用户区域周下单,用户区域PV
关联特征:共现特征,组合ctr

纠错

候选集合

召回策略

一个query过来:
纠错模块:同音纠错,模糊音纠错,字典纠错 ,形近字纠错
产生候选序列

泛词查询

引导用户的思路,不同需求不同引导

搜索分词

分词算法

CRF:是一个序列标注问题,可以发现新词,消歧义

上一篇 下一篇

猜你喜欢

热点阅读