Python3入门机器学习(一)- 机器学习基本概念
2018-04-01 本文已影响141人
9c0ddf06559c
由于简书不支持目录结构。文章备份了一份在gitbook,结构更清晰,地址:https://book.markgao.me/
有关数据的一些术语
数据1 数据2 数据3 数据4机器学习中监督学习的基本任务
-
分类任务
将给定的数据进行分类,比如区分猫和狗
-
二分类任务
- 判断邮件是垃圾邮件;不是垃圾邮件
- 判断发放给客户信用卡有风险;没有风险
- 判断病患良性肿瘤;恶性肿瘤
- 判断某支股票涨;跌
-
多分类任务
- 数字识别
- 图像识别
- 判断发放给客户信用卡的风险评级
- 一些算法只支持完成二分类的任务
- 但是多分类的任务可以转换成二分类的任务
- 有一些算法天然可以完成多分类任务
-
回归任务
结果是一个连续数字的值,而非一个类别
- 房屋价格
- 市场分析
- 学生成绩
- 股票价格
- 有一些算法只能解决回归问题
- 有一些算法只能解决分类问题
- 有一些算法既能解决回归问题,也能解决分类问题
- 一些情况下,回归任务可以简化成分类任务,比如学生的具体成绩预测转换成评级,无人车驾驶,转换成油门,刹车,方向盘的程度
-
监督学习
给机器的训练数据拥有“标记”或者“答案”,人类已经给机器对数据进行了正确答案的划分,这个答案的划分本身就是监督的信息
- 图像已经拥有了标记信息
- 银行已经积累了一定的客户信息和他们信息卡的信用情况
- 医院已经积累了一定的病人信息和他们最终确诊是否患病的情况
- 市场积累了房屋的基本信息和最终成交的金额
-
非监督学习
给机器的训练数据没有任何的“答案”和“标记”
对没有“标记”的数据进行分类-聚类分析
对数据进行降维处理
- 特征提取:信用卡的信用评级和人的胖瘦无关
- 特征压缩:PCA
- 方便可视化
异常检测
异常检测
半监督学习
一部分数据有“标记”或者“答案”,另一部分数据没有
更常见:各种原因产生的标记缺失
增强学习
根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式
- 无人驾驶
-
机器人
增强学习
监督学习和半监督学习是基础