用户输入语料——>用户商业兴趣
2018-07-26 本文已影响15人
东方清fly
对于用户和广告、用户和新闻、是如何联系起来的,现在的网友们应该都不陌生,毕竟互联网现在到处弥漫着个性化推荐的味嘛!那么它们之间究竟是怎么联系的呢?白话说,就是词与词的关系,A用户输入了一个“去哪儿”,“去哪儿”是做旅游的,那么我们就可以定位A对“旅游”有兴趣,且喜欢用“去哪儿”。
什么是输入语料呢?
所谓“商业兴趣”,就是指用户对广告类别的兴趣,通过定位用户的商业兴趣,去给用户推送他感兴趣的广告,就可以等着money进口袋了。但是用户那么多,兴趣分散且各异,我们如何给兴趣归类是个问题,所以我们得首先有个兴趣标签库呀!
NO.1 建立商业兴趣标签库:
DF结合自家产品情况,整理了覆盖20个商业兴趣类别的标签库,格式大致如下:
商业标签结构示意NO.2 机器计算用户的商业兴趣
①计算语料关键词与种子词的向量分
DF将***商业兴趣结构提供给技术后,技术结合原有词库(机器从众多用户输入语料和新闻语义中学习,从而判断词与词之间的相关性)中,词与词之间的相关性,给从用户语料中提取出的关键词打向量分。
机器给语料关键词打分流程②计算二级标签综合得分
二级标签得分 = A种子词的向量分*次数 + B种子词的向量分*次数+……
关键词与种子词向量分截图③验证机器计算商业标签的准确性
为了方便人工进行评测,经过观察,我们敲定,选取每个用户的top 10二级标签、每个二级标签下种子词直接向量分top 10。
通过人工对多个语料的分析,制定评测标准,结合用户语料中表现的商业兴趣取向,评测机器商业标签的准确性。(评测标准暂时不在此处上传,后期时机合适再上传)。
如机器的top10二级标签中,有3个是在用户输入语料中能看出来的,则机器商业标签准确率为40%。
大致流程就是这样了,写的比较粗,后续再完善。