数据标注

2018-11-13 本文已影响0人 YIPXC

• 机器学习的学习方式包括：监督学习、无监督学习

• 数据分为两种类型：被标注or未被标注

• 其中监督学习需要经过标注的数据作为先验经验，即算法同事使用被标注的数据去训练模型

• 跟成熟的传统互联网领域不同，目前是AI早期阶段，在某些角度上，数据的重要性甚至超过了技术架构/算法，或常规的产品体验

○ 明确标注任务的目的，根据任务目的设立标签类别和维度

○ 标签设计原则：独立性、全面性

○ 标签颗粒度：颗粒度↑，独立性↓，全面性↑；颗粒度↓，独立性↑，全面性↓

由算法同事跟进，但产品可依据需求，向算法同事提出需要注意的方面，避免无目的性、无针对性、无紧急程度的工作

由测试同事/算法同事将未被训练过的数据在新的模型下做测试。

测试同事需要将测试的结果完善地反馈给算法同事，算法同事才能找准模型效果欠缺的原因。同时，测试同事将本次模型的指标结果反馈给产品，由产品评估是否满足上线需求。

一般来说模型测试至少需要关注两个指标：

1.精确率：识别为正确的样本数/识别出来的样本数

2.召回率：识别为正确的样本数/所有样本中正确的数

在模型上线之前，产品需反复验证模型效果