容商天下：数据增强技术发展的绊脚石是什么？

2019-07-18 本文已影响0人共享人才平台

我们知道，能够在业内叱咤风云的AI都曾“身经百战”，即经历过无数次的训练与试错。这就需要海量数据做依托，对于那些数据量匮乏的领域，就衍生出了数据增强技术。即，根据一个原始数据，稍作改动，变成一个对于AI来说的全新的数据。

既然数据拥有这种“自我繁殖”的能力，那是不是说数据匮乏不会再成为阻碍AI发展的绊脚石？比如，小语种的翻译，冷门动植物的识别，都可以通过对原始数据的变动而实现数据海量化，那么业内巨头们就再也不能垄断数据。

如果数据增强技术有如此之强的能力，这项技术至少应该像BERT一样在学术界和产业界引起极高的关注，并且迅速形成产业链。

可实际上今天我们仍然能看到大量AI企业为如何获取数据而忧虑。

为什么数据增强技术没能彻底解决他们的问题呢？这背后其实是一个成本问题。

数据增强技术从来都不是免费利用的，很多时候AI技术接口本身就需要按调用次数收费，还有计算成本以及时间成本。

比如文本数据经常利用的机器翻译来说，百度、搜狗、有道等等提供的机器翻译服务对于普通用户来说虽然是免费的，但是超过了一定流量值之后也要进行收费。数据增强技术显然属于收费范畴之中。而应用于图片数据增强的谷歌AutoAugment，更是一种十分昂贵的算法。应用时要对15000个模型进行收敛，这对算力的消耗是巨大的。

我们设想一下，如果数据增强的收费成本超过了人工去拍照收集，企业自然会去选择更划算的方法。实际上大多数时候企业既不能覆盖人工获取数据的成本，也不能覆盖数据增强技术应用的成本。这就是为什么，有了数据增强技术，AI的发展依然会由于数据不足而受限。

容商天下：数据增强技术发展的绊脚石是什么？

猜你喜欢

热点阅读