机器学习与数据挖掘

讲人话系列——企业中的文本分类

2019-04-17  本文已影响387人  张凡宇

概述

新型深度模型天天刷屏刷榜,模型日新月异,做算法的不免感到焦虑。发现自己看论文的速度已经赶不上他们发论文的速度了。在此启发下,想写一写自己工作的思考,面对一个领域,我们如何进行技术选型,这个系列我会结合着自己的工作,帮助大家选择一个好的Baseline模型。可能这也是我的困惑,大家模型介绍的欢天喜地,并没有指出哪些适合做baseline,到头还得自己一个一个试,希望我的经验能帮助大家节省一点点时间。我就很满足了。技术更新太快,自己并不是专家,您看到这篇文章的时候,可能已经有点过时,择优享用吧。

问题描述

技术价值:该技术非常的实用,一方面可以帮助公司节省一些人力标注成本,另一方面,可以赋能业务,让业务做一些之前无法做到的分析、运营。

模型介绍

本文不一一对比各个模型的原理,参看用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践即可。这里我一句话介绍一下模型的区别。

一句话模型总结:

好了,模型介绍到此结束。

文本分类Trick

这里,我来说一下,具体应用场景下我们一般关注什么样的问题。以及我们有哪些解决对策。个人做的应用偏向于短文本,所以trick也会偏向短文本。

思考1:训练数据量、标签量。

思考2:数据来源

思考3:评估与调整

关于模型优化、流程优化

技术层面的东西讲完了,留下一些自己的思考,当作和大家讨论。

作为一项基础技术,文本分类服务很多业务。人力有限的情况下,很难做一些定制化的优化。所以模型的更新一定是有较大提升的,即在性能无影响的情况下,所有场景都能比较稳步提升。当然这并不容易。但是可以尝试做出一些新东西,更贴近业务或者其他更易用的模型。

模型提升点:

流程提升点:数据为王的模型下,如何让打标的人更快的达标也是个技术活

上一篇下一篇

猜你喜欢

热点阅读