AI对话式交互

数据标注

2018-11-13  本文已影响0人  YIPXC

背景

• 机器学习的学习方式包括:监督学习、无监督学习

• 数据分为两种类型:被标注or未被标注

• 其中监督学习需要经过标注的数据作为先验经验,即算法同事使用被标注的数据去训练模型

• 跟成熟的传统互联网领域不同,目前是AI早期阶段,在某些角度上,数据的重要性甚至超过了技术架构/算法,或常规的产品体验

流程

• 数据标注

○ 明确标注任务的目的,根据任务目的设立标签类别和维度

○ 标签设计原则:独立性、全面性

○ 标签颗粒度:颗粒度↑,独立性↓,全面性↑;颗粒度↓,独立性↑,全面性↓

• 模型训练

由算法同事跟进,但产品可依据需求,向算法同事提出需要注意的方面,避免无目的性、无针对性、无紧急程度的工作

• 模型测试

由测试同事/算法同事将未被训练过的数据在新的模型下做测试。

测试同事需要将测试的结果完善地反馈给算法同事,算法同事才能找准模型效果欠缺的原因。同时,测试同事将本次模型的指标结果反馈给产品,由产品评估是否满足上线需求。

一般来说模型测试至少需要关注两个指标:

1.精确率:识别为正确的样本数/识别出来的样本数

2.召回率:识别为正确的样本数/所有样本中正确的数

• 产品评估

在模型上线之前,产品需反复验证模型效果

上一篇下一篇

猜你喜欢

热点阅读