CCAI 2019|Shai Ben-David:人工智能的可学
2019年中国人工智能大会(Chinese Congress on Artificial Intelligence 2019,简称“CCAI 2019”)将于9月21日-22日在青岛胶州召开。加拿大滑铁卢大学教授Shai Ben-David将出席大会并发表演讲。
Shai Ben-David教授的研究兴趣涉及计算机科学及其应用基础理论,特别是在统计和机器学习方面有很多的研究。他一直在探索如何为一些十分流行的机器学习和数据挖掘范式提供理论基础,用数学公式加深我们对这个世界的理解。
机器学习的可学习性如何判定?
在业界,近些年来机器学习在人机对弈、语音识别、图像识别等场景下取得了蓬勃发展,引发了人们对人工智能改造未来社会的无限热情和期待。但在学界,却有不少科学家指出了机器学习的发展局限。而Shai Ben-David探索的就是这样一个机器学习的本质问题:我们能不能判定人工智能的可学习性?
长久以来,我们一直认为只要给定了对学习任务的一个精准的描述,我们就可以去判定一个机器学习算法能否进行学习并执行这个任务。但Shai Ben-David通过研究给出一个惊人的答案:不一定!这项成果近期被发表了Nature Machine Intelligence一刊上。
他指出,如果一个问题只需要“是”或“否”的回答,我们还是可以确切地知道这个问题可否被机器学习算法解决。但是,一旦涉及到更一般的设置时,我们就无法区分可学习和不可学习的任务了。
存在无法用数学来证明或反驳的机器学习问题
在机器学习中,对于面部识别或推荐引擎等非线性可判断问题,在定义机器学习的可学习性时,我们通常是要求这个机器学习模型是一族函数中的预测性能最佳的。于是,我们一般会通过维度分析的方式来解释一个模型的可学习性。而在这项研究中,Shai Ben-David等人设计了一个机器学习问题EMX(Estimating the Maximum)。
举个实际的例子来说,你希望在网站上投放广告,并最大限度地让这些广告有更大目标观众数量。你有向面向不同的年龄段的用户的不同的宣传广告,但你不知道谁会访问这个网站,也不知道年龄分布。你如何选择一组广告,最大限度地增加你的目标观众数量?这就是一个现实的EMX问题。
在他的工作中,结果表明,EMX问题的解等价于连续统假设,即只有在连续统假设成立的情况下,EMX问题才是可解决的。这意味着,“人工智能是否具有可学习性?”这个问题的答案和连续统假设一样不可知。
但进一步研究发现,产生这一结论的根源在于将可学习性定义为学习函数的存在性,而不是学习算法的存在性。与算法的存在相比,函数在无限域上的存在是一个微妙的问题。他的工作表明,当涉及到更一般的学习类型时,这种关于可学习性的集合论观点代价很高。
结语
对于目前深度学习技术得到广泛应用的状况,Shai Ben-David教授也提出了自己的看法:“我们必须谨慎行事,现在有一种大趋势,人们只关注于应用一个成功的工具,但是很少有人去关注为什么它会成功以及没有理论保证它们会继续取得成功。”