数据标注
2018-11-13 本文已影响0人
YIPXC
背景
• 机器学习的学习方式包括:监督学习、无监督学习
• 数据分为两种类型:被标注or未被标注
• 其中监督学习需要经过标注的数据作为先验经验,即算法同事使用被标注的数据去训练模型
• 跟成熟的传统互联网领域不同,目前是AI早期阶段,在某些角度上,数据的重要性甚至超过了技术架构/算法,或常规的产品体验
流程
• 数据标注
○ 明确标注任务的目的,根据任务目的设立标签类别和维度
○ 标签设计原则:独立性、全面性
○ 标签颗粒度:颗粒度↑,独立性↓,全面性↑;颗粒度↓,独立性↑,全面性↓
• 模型训练
由算法同事跟进,但产品可依据需求,向算法同事提出需要注意的方面,避免无目的性、无针对性、无紧急程度的工作
• 模型测试
由测试同事/算法同事将未被训练过的数据在新的模型下做测试。
测试同事需要将测试的结果完善地反馈给算法同事,算法同事才能找准模型效果欠缺的原因。同时,测试同事将本次模型的指标结果反馈给产品,由产品评估是否满足上线需求。
一般来说模型测试至少需要关注两个指标:
1.精确率:识别为正确的样本数/识别出来的样本数
2.召回率:识别为正确的样本数/所有样本中正确的数
• 产品评估
在模型上线之前,产品需反复验证模型效果