【AI数据建设1】数据收集

2020-02-19 本文已影响0人王小野

AI时代，数据为王。那么AI数据是如何建设的？本文将以人脸和声纹数据为例，先从AI数据的渠道来源说起。

前言

质量和数量是AI数据关注的两大维度。

因为对数据质量有要求，AI数据一般被获取后不会被直接使用，理论上需要用算法和人工清洗标注一遍，才会被使用，因此从不同渠道获取数据的质量会影响清洗的成本。

AI数据会被划分为2个用途：训练集合测试集。并且一旦用作训练，就不能拿来测试了。以人脸比对所需的数据为例，一般训练集都是几十万个人起的数据，测试集几千人可能就可以了。所以不同渠道能获取到的数据数量也会被作为渠道质量的评判标准。当然也有例外，当算法不具备某个能力或者某个数据类型的性能表现不好的情况下，即使只有几千人，也会把这类紧缺的数据用作训练集，虽然训练效果有限，算法能学习到的有限，也比没有的好。

AI数据常从下面7个渠道获取，但是不同渠道的数据质量和可得数量不同，因此常常搭配组合使用。

1.1 业务数据

留存业务数据除了用于定位生产问题，还可用于算法训练测试。这里着重介绍后者—用于算法训练测试。业务来的数据通常会附带比较全的业务信息标签，以此可分析并筛选出算法能力欠缺的数据，有针对性的展开训练和测试。

比如想提升人脸比对算法在室外复杂光照条件下5%的精度（误识别率为万一），可以从生产留存的数据中通过筛选业务ID提取出如某个安放在室外的考勤闸机数据，通过时间字段分别筛选中午晚上强烈和光照暗淡的时间段。通过业务标签筛选后再给到标注，可以更快速高效的获取精细化的目标数据。

所以AI数据产品经理需要在数据入库时就注意规划好预留的业务字段，有时还要反馈给业务线产品同事修改或增加相关的字段。比如声纹算法同事期望数据能区分信道是来自电话平台还是录音平台，如果当前生产上没有这个标签，就需要推动相关同事改造接口增加这一字段。

1.2 部门合作

其他部门的业务可能也会产生本部门缺少的AI数据，对于其他部门而言，这些数据只是备份存根，甚至可能毫无用处。

此时产品经理就可以通过合作或者资源置换推动获取这部分数据，共同推进AI业务落地。比如公司内部有一条成熟的电话客服业务线，其留存的大量历史音频数据就是声纹或NLP缺少的宝贵业务数据。再如银行开户时，留存的用户身份证或证件照信息，就是人脸识别团队非常紧缺的人证比对数据。

但是这部分存量数据因为没有预先留存业务标签，其价值相对弱一些，并且鱼龙混杂，脏数据比较多，后期清洗难度和花费精力会比较大，多用于测试集。

1.3 采购数据

优先级比较高且紧缺的数据还可以考虑采购，就是直接向数据供应商购买。

在采购前不仅要明确采什么样的数据，还要共识一套交付标准，以及严控交付日期，签署隐私协议。其中交付标准是非常重要，又是极易考虑不周全的环节。供应商会按照要求将数据分门别类的整理好再交付，这个交付分类的方式不能只考虑到分类清晰明了，应该和后续清洗平台或测试训练平台共识这个分类方式，是否能适配这些平台。否则会造成放着造好的平台工具无法使用，还是要全部依赖原始的纯人工标注这种低效方式，影响交付使用日期。

很多时候采购的数据量较大，精准度很高，交付时间也有保障，一般用作训练集。但是采购的成本很高，比如人脸识别需要的黑人、东南亚人这些外国人种数据、0-3岁70岁以上的低老年龄段数据,一个人的照片可高达10-80元，声纹的16KHZ采样率音频高达40-70元/人（每人约采10条，目前业内多为8KHZ）。

1.4 人工采集

此外还可使用驻场外包通过人工采集高度定制化所需数据。

产品经理还可规划相应的采集APP工具，提高采集的数据有用率和效率。比如需要采集一批对光照强度有明确要求的人脸照片，可以在采集APP里集成光照质量检测的SDK算法模型，采集前预先设定好目标光照范围，采集人员就可以批量拍摄符合光照要求的照片。这种方法可以快速定制化采集需求数据，并且成本较为低廉，精确度很高。

1.5 活动采集

活动采集可分为“直白型”和“委婉型”两类。

“直白型”会明确告知用户，这是一个需要配合采集数据的活动，并且会有明确且详细的采集要求，配合完成后会奖励用户一些礼品。因为数据隐私具有一定敏感性，一般仅针对公司内部其他部门员工展开，形式多为线下。此类活动，需要产品经理明确采集规则，制定流畅的操作步骤，准备采集设备与规划存储方案，与运营一起策划活动流程与奖品策略。

这种方式，较为简单粗暴，不用在活动策划上花费过多的精力包装游戏，用户配合度高，获得的数据精准度高，但同时有一定奖品成本，获取的数据量较少。适合定制化程度高，且较为紧缺的数据需求，数据一般用作测试集，如前文提到的，训练数据紧缺时也可以考虑。

另一类“委婉型”则有巧妙的游戏场景，让用户乐在其中，自愿参与，不易产生采集反感情绪（当然可能是没意识到被采集了）。

比如“军装照”这类要求上传照片，反馈预测或合成结果的线上H5；之前引起热议的"ZAO"app；展会上的互动AI游戏等。此类活动，需要产品经理结合需要的数据，构造完整的故事情节，打造有趣的游戏场景，如何兼顾两者还能达到效果是比较挑战产品经理的。

这种形式的好处是可以快速大量获取不同人的数据，并且有利于品牌传播。缺点是获取的数据标签有限，精准度难以控制，数据价值较低，人力物力投入较大，筹备周期长，还有个风险是容易招惹“隐私”风波，比如ZAO的下场。所以适合常规数据需求，采集来的数据多用作测试集，或提升算法的普适性。

1.6网络下载

此方法多使用爬虫等获取百度、必应、搜狗等平台上的公开网络数据，类型比如多人脸照片、双胞胎照片等。优势是可以快速获取大量数据，几乎没有成本。但因为是根据“关键词”搜索的结果，其准确度很低，比如搜索“黑人”这个关键词出来的数据中，有大量非黑人的数据。后期清洗任务很重。

1.7造数据

借用PS、美图秀秀、算法等工具对现有数据进行改造。比如用算法旋转造出“旋转后的人脸照片”，用P图软件将多人像拼接造出“多人脸”数据，用PS造出“强曝光”、“美颜后”人脸照片。其优势是几乎无成本快速批量获取目标数据，但缺点也很明显，毕竟是造出来的数据，场景失真，对算法能力的提升效果有影响。（当然如果就是为了提升“防PS图片攻击”的能力，就是完全符合需求的样本）