机器学习的缺陷
2020-04-11 本文已影响0人
御风_曜
机器学习的缺陷
机器学习的基础——概率
- 预测下雨的概率,根据贝叶斯公式,P(雨|云)=P(云|雨)*P(雨)/P(云),是在我们仅仅知道这些的情况下算的概率,不保证一定准确。
- 如果有人人工降雨,概率是98%,但你不知道这个信息,那么你前面贝叶斯公式算的就是错的。
机器学习的原理:以历史现象预测未来——通过函数的拟合
- 将历史数据输入机器,让机器去找一个函数,尽量拟合历史数据。只是拟合,很多点实际是不在拟合函数上的,说明没有准确性,没有找到数据内在规律。
- 机器学习是数据越多越准确,那么数据量是n时的拟合肯定不如数据量是n+1时的拟合,但数据量多大算够大?不知道。所以拟合永远是不准确的!
- 为什么只根据表面现象(数据)去找规律呢?为什么不透过现象看本质呢?
表面的关联不代表内在的关联
- 做法:通过大量数据统计出不同数据之间的关联性
- 历史数据永远是不完整、不准确的
由于永远无法收集所有数据、收集过程中的错误(人会犯错,软件会有bug,机器会出错),导致历史数据永远是不完整、有错误的
所以未来无法完全符合历史数据 - 表面现象的关联性不直接等于内在本质:为什么这样关联?机器学习不知道。表面的关联反应了什么内在本质?不知道。表面现象要经过人的理性分析、总结,得出内在本质规律
- 在语言理解领域也要遵循此原则,要由人来解释语言、语义的规律,而不是单单由机器去总结规律。机器学习是跳过了理性思考,所以完全不理解语言,所以现有的聊天机器人很糟糕。
- 机器能懂语言么?我们往往不相信。但我们为什么相信机器学习呢?为什么相信所谓的巨头、学术界大牛呢?
技术有门槛,只能相信权威 - 本技术——语义解构,正是填补了语义理解这一领域的理性空白——是将人总结的语义规律,翻译成程序语言
盲人摸象VS直接看
机器学习的适用范围
在没有掌握本质的时候,根据表面数据来粗略预测未来。机器学习未深入本质,只是根据表面现象“猜”,是很笨很低效的。打个比方,就好比把一个不会外语的中国人扔到外国,不去系统的学习外语,只靠每天听外语,即使再聪明,学习的速度也是很慢很费力的。
机器学习是没有针对本质的盲人摸象,所以:
不是人制定的章法,不可解释(请参阅机器学习的可解释性)
退一万步说,即使有一天解释了,也会耗费不必要的巨量计算资源,这个代价远大于其收益
退一万步说,机器学习如果搞定了自然语言理解,不可解释的机器学习主导的不可预测的机器人,将不被人类控制,就是恶魔统治世界。
为什么要让盲人摸象呢?可不可以直接看呢?
现有技术:对词义的解释,没有找到“门道”
知识图谱:没有解释词义,只是简单的事物归类
语义网络,如WordNet:解释了词义,但存在循环引用,无法用程序实现
如下例,一个词语“include”的解释包含了part,“part”的解释又包含了include:
include -- have as a part,
part -- something determined in relation to something that includes it;
HowNet:有词义最小单元的概念,但是其非系统化的多维度分类(分类之间没有联系、对分类没有进一步解释、简化),没有精确、简洁地解释词义,导致越来越复杂,掺杂错误,无法应用

一个知识图谱,对“骄傲”这个词只归类于“抽象事物”,没有解释其含义

现有技术——HowNet对一个词“顶点”的解释,多么复杂!
“高于正常”的都是顶点吗?No。所以这解释是错误的
“界限”“位置”又如何定义?没有。
按我的解释——“最高的点”,不是一目了然吗?