NLP与金融推荐(下)
2018-10-23 本文已影响1人
林桉
以今日头条NLP推荐系统为例(侧重特征工程)
系统概况
image.png-
内容:需要考虑怎样提取不同内容类型的特征做好推荐。
-
用户特征:包括各种兴趣标签,职业、年龄、性别等,还有很多模型刻划出的隐式用户兴趣等。
-
环境特征:这是移动互联网时代推荐的特点,用户随时随地移动,在工作场合、通勤、旅游等不同的场景,信息偏好有所偏移。
image.png
内容分析:以文本分析为例(除此之外,还有视频、音频)
- 文本分析在推荐系统中一个很重要的作用是用户兴趣建模。
- 另一方面,文本内容的标签可以直接帮助推荐特征,比如魅族的内容可以推荐给关注魅族的用户,这是用户标签的匹配。
文本特征:
-
语义标签:显式为文章打上语义标签。这部分标签是由人定义的特征,每个标签有明确的意义,标签体系是预定义的。
-
隐式语义特征:主要是topic特征和关键词特征。
-
文本相似度:每个人对重复的定义不一样,合理定义个性化相似度。
-
时空特征:分析内容的发生地点以及时效性。
-
质量相关特征:判断内容是否低俗,色情,虚假广告,软文,鸡汤。
image.png -
分类体系目标是覆盖全面,希望每篇内容每段视频都有分类。
-
概念体系则负责解决比较精确又属于抽象概念的语义。
-
实体体系要求精准,相同名字或内容要能明确区分究竟指代哪一个人或物,但不用覆盖很全。
image.png