机器学习杂文

bert模型简单使用&app分类场景前期效果验证

2020-01-15  本文已影响0人  yangy_fly

好久没更新了,更新一个前一段时间做的项目的前期效果调研过程,目前已经在走工程化流程。

1、项目背景

基于app推送的文本内容隐含地表示了app的属性信息的假设,我们从app推送内容入手,使用NLP的方式尝试获取能够描述app属性的向量数据。同时期望该数据能够为app分类、用户分群等场景带来新的思路。以下调研结果和过程都是基于app分类的场景

2、调研结果

2.1、app多分类结果

category数量 app总数 有label的app数量 无label的app数量 验证集预测准确率 测试集model 测试集KNN(k=20) 测试集model+KNN
20 387 150 237 0.6 0.425 0.525 0.525

2.2、推送语句聚类

category数量 带label的文本总数 测试文本数 KNN top1准确率(K=5、10、15、20)
10 4873 975(约20%*4873) >90%
image.png

3、调研过程

3.1、数据说明(语料均做过去重/去相似处理)

语料总数 app总数 群推语料数量 群推app数量 单推语料数量 单推app数量 重合app数量
783446 387 147079 110 636367 352 75
训练语料总数 训练app数量 验证语料总数 验证集app数量 测试集语料总数 测试集app数量 app最少语料数 app最多语料数
320000 120 80000 30 378259 40 1 56715
category数量 category最少语料数 category最多语料数 最少app数及对应category 最多app数及对应category
20 5 99024 2:[教育、婚庆、钓鱼、行业交易平台、彩票] 29:[金融理财]

3.2、app向量聚类展示

image.png

3.3、模仿word2vec训练出app向量

image.png

4、后续改进

后续优化点

上一篇下一篇

猜你喜欢

热点阅读