终极算法书摘
2018-06-11 本文已影响0人
cf1244c50db8
- 机器学习主要有5个学派, 我们会对每个学派分别介绍: 符号学派将学习看作逆向演
绎, 并从哲学、 心理学、 逻辑学中寻求洞见; 联结学派对大脑进行逆向分析, 灵感来源于神
经科学和物理学; 进化学派在计算机上模拟进化, 并利用遗传学和进化生物学知识; 贝叶斯
学派认为学习是一种概率推理形式, 理论根基在于统计学; 类推学派通过对相似性判断的外
推来进行学习, 并受心理学和数学最优化的影响。 - 机器学习的5个学派都有自己的主算法, 利用这种万能学习算法, 原则上, 你可以通过
任何领域的数据来挖掘知识: 符号学派的主算法是逆向演绎, 联结学派的主算法是反向传
播, 进化学派的主算法是遗传编程, 贝叶斯学派的主算法是贝叶斯推理, 类推学派的主算法
是支持向量机。 - 信不信由你, 所有算法, 无论多复杂, 都能分解为这三种逻辑运算: 且, 或, 非。
- 第一, 我们掌握的数据越多, 我们能学的也越多。 没有数据? 什么也学不到。 大数据?
很多东西可以学习。 这也是机器学习无处不在的原因, 因为有飞速增长的数据。 如果你在超
市购买机器学习, 其包装上可能会写着“只需添加数据”。第二, 机器学习是一把剑, 利用这把剑可以杀死复杂性怪兽。 只要有足够的数据, 一段只有几百行代码的程序可以轻易生成拥有上百万行代码的程序, 而且它可以为解决不同问题不停产生不同的程序。 这可以显著降低程序员工作的复杂度。 当然, 就像对付九头蛇, 我们砍掉它的头, 会立即长出新头, 但长出的头会变小, 而且头的生长也需要时间, 因此我们仍有可能胜出。
我们可以把机器学习当作逆运算, 正如开平方是平方的逆运算、 整合是分化的逆运算。
正如我们会问“什么数的平方是16”, 或者“导数为x+1的函数是什么”, 我们也会问“什么算法
会得出该结果”。 我们很快会看到, 怎样将这个观点运用到具体的学习算法中。 - 机器学习有许多不同的形式, 也会涉及许多不同的名字: 模式识别、 统计建模、 数据挖
掘、 知识发现、 预测分析、 数据科学、 适应系统、 自组织系统等。 - 在信息处理这个生态系统中, 学习算法是顶级掠食者。 数据库、 网络爬虫、 索引器等相
当于食草动物, 耐心地对无限领域中的数据进行蚕食。 统计算法、 线上分析处理等则相当于食肉动物。 食草动物有必要存在, 因为没有它们, 其他动物无法存活, 但顶级掠食者有更为刺激的生活。 数据爬虫就像一头牛, 网页相当于它的草原, 每个网页就是一根草。 当网络爬虫进行破坏行动时, 网站的副本就会保存在其硬盘当中。 索引器接着做一个页面的列表, 每个词都会出现在页面当中, 这很像一本书后的索引。 数据库就像大象, 又大又重, 永远不会被忽略。 在这些动物当中, 耐心的野兽飞快运转统计和分析算法, 压缩并进行选择, 将数据变为信息。 学习算法将这些信息吞下、 消化, 然后将其变成知识。 - 实际上, 对所有主要的学习算法——包括最近邻算法、 决策树学习算法以及贝叶斯网络(朴素贝叶斯的概括) ——来说, 如果你为学习算法提供足够、 适当的数
据, 该算法可以实现任一功能(对学习任何东西来说, 都与数学相关) 。 需要注意的
是, “足够数据”也有可能无限。 学习无限数据需要做出假设, 如我们会看到的那样, 而且不
同的学习算法会有不同的假设 - 所有知识,无论是过去的、 现在的还是未来的,都有可能通过单个通用学习算法来从数
据中获得。