机器学习的基本概念
2018-12-21 本文已影响4人
afbbcde7fa3e
1.问题的类型
在某种程度上,现代的机器学习与人工智能(AI)概念之间的区别已经越来越小,而机器学习的第一步,则是需要以机器能够理解的方式来表示问题(当然要能表达人的意图才行),那么,人类需要机器学习去解决的问题都有哪些呢?从类型上,似乎不外乎以下几种:
- 探索:通过分析数据找到某种模式、趋势或者联系。比如抽烟与肺癌这一长久困扰人类的有争议的话题。
- 描述:对数据进行汇总和描述。
- 推理:通过数据来支持某种假设。
- 预测:通过历史数据来预测未来。
- 归因:找到事物发生的原因。
- 机制:找到规律。
2.解决问题的次序
机器学习解决问题的次序可以分为以下6个步骤。
- 定义:根据前一条中描述的问题类型,对目标与要求进行定义和说明。
- 准备:为解决问题搜索和整理必要的数据。
- 建模:针对当前问题建立机器学习的模型。
- 实现:将模型运用在数据中以解决问题。
- 测试:对模型进行反复测试与调整,以达到最理想的效果。
- 部署:将模型运用在现实世界中。
3. 机器学习任务分类
机器学习的任务类型可以大致分为以下三种。
- 有监督学习:从有标签的数据中学习建立模型,允许对未来数据进行预测,典型的例子比如分析垃圾邮件、验证签名等等。
- 无监督学习:处理无标签数据,其目标是从数据中发现模式。比如通过学习规律的服务器访问记录,找出异常访问的模式。
- 强化学习:是对无标签数据通过人工的奖惩信号来持续改进性能的一中学习类型。
4. 机器的工作
要通过完成任务解决问题,机器一般要进行以下几种类型的工作。
- 分类:如之前所述,分类是最常见的任务之一。
- 回归:简言之,回归并不是要回归到哪里去的意思,而是找出自变量与因变量之间的(函数)关系。
- 聚类:对于无法严格分类的内容,采用类似星系一样以大致的距离和密度分类的方法。
- 降维:无论在动漫世界还是机器学习领域,降维都是一个可以极大提高效率的方法。
- 试错:模型设计、数据划分等各种错误都有可能导致非常荒谬的结论,因此机器任务中一大部分是如何通过训练集和测试集来反复试错的过程。
- 优化:很多领域都存在优化问题,在有限的约束条件下,找到最优的目标函数,这包括了金融、数学、工程等等方面。
- 线性规划:当前机器学习对线性代数的严重依赖,足以体现线性规划的重要作用。
5.模型的类型
模型同样有其分类,划分的方式大致上有分组和分级两种,详细而言,模型大概可分为以下三类。
- 几何模型:以平面的可以想象的空间为例,通过对数据分类建立几何模型是可以直观看出的,在此基础上多维向量组成的矢量空间,同样也是几何模型的范畴。
- 概率模型:最典型的例子之一便是贝叶斯分类器,先验概率、后验概率等等,显然是机器学习模型中非常重要的一个分支。
- 逻辑模型:通过逻辑而形成的决策树,是机器学习擅长的也非常有价值的一类模型。
可以看出,机器学习实际上综合了几何、线性代数、概率论、逻辑学、决策论等多个学科,这还不算在其应用领域上的金融、工程、经济、物理等专业学科,再加上要将理论变成实践的程序设计、软件工程等知识,机器学习实际上是一门高度综合的学科。