机器学习第一弹——入门篇
一、机器学习基础知识
1、从机器学习谈起
国内的机器学习大佬是吴恩达,网上有关于他的机器学习的公开视频,可以进行学习。
机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。
决策树只能预测离散值
机器学习方法是计算机利用已有的数据,得出了某种模型,并利用该模型进行预测的一种方法。
2、机器学习的定义
训练与预测是机器学习的两个过程,模型是过程的中间输出结果,训练产生模型,模型指导预测。
模式识别=机器学习
数据挖掘=机器学习+数据库
统计学习近似与机器学习(统计学习关注统计模型的发展和优化,偏数学,机器学习重点是解决问题)
计算机视觉=图像处理+机器学习,例如车牌识别
语音识别=语音处理+机器学习,语音处理一般会结合自然语言处理的相关技术
自然语言处理=文本处理+机器学习 在自然语言处理技术中,大量使用编译原理相关技术,例如词法分析等
4、机器学习的方法
1)回归算法=线性回归+逻辑回归
线性回归中会用到数值计算,主要处理数值问题,预测结果是数字。“数值计算”专门可以提升计算机进行各类计算时的准确性和效率的问题,例如梯度下降法和牛顿法。
逻辑回归是对线性回归的计算结果加上了Sigmoid函数,将数值转化为0到1之间的概率,从而确定一条分类线,当概率大于0.5时,即为不合格,当小于0.5时,则为合格
2)神经网络——非线性分类线
神经网络的逻辑架构:分成输入层、隐藏层和输出层。输入层负责接受信号,隐藏层负责对数据的分解与处理,最后的结果被整合到输出层。其中,每个处理单元就是一个逻辑回归模型,逻辑回归模型接受上层的输入,将预测结果作为输出传输到下一个层次。例如,BP算法
3)SVM支持向量机
强化了逻辑回归算法,通过某类函数技术,可以实现将低维空间射到高维空间,从而可以表达出非常复杂的分类界线,达到良好的分类效果。
4)聚类算法
通过训练不含标签的数据,推测出标准,即无监督算法,典型代表就是聚类算法,即计算种群中的距离,根据距离的远近,划分出多个族群。聚类算法的典型代表是K-Means算法。
5)降维算法
降维算法也是一种无监督学习算法,主要是降维,从而提升效率和数据的可视化,主要代表为主成分分析算法 PCA算法
6)推荐算法
推荐算法是可以主动向用户推荐他们感兴趣的东西,从而增加购买率,提升效益,主要分为两种:第一是基于物品内容的推荐,将相似物品推荐给用户,因此物品需要有若干标签;第二是基于用户相似度推荐,用户画像相似,则可以将类似用户购买的物品相互推荐
一般电商应用中,两者混用,最有名-协同过滤算法
小结:监督学习算法——线性回归、逻辑回归、神经网络、SVM;无监督学习算法——聚类算法、降维算法;特殊算法——推荐算法。
5、机器学习的应用——大数据
大数据包含分布式计算、内存数据库、多维分析等技术,也有四种分析方法:大数据,小分析——数据仓库领域的OLAP分析,即多为分析思想;大数据,大分析:数据挖掘与机器学习分析法;流式分析——时间驱动架构;查询分析——NoSQL数据库
6、机器学习的子类——深度学习
具有多隐藏层的称之为深度学习,深度神经网络在训练上的难度可以通过逐层初始化克服
7、机器学习的父类——人工智能
智慧就是可以把经验总结为规律,至于能力可以通过种种技术解决。分布式计算解决结算能力,时间驱动架构提高反映能力,搜索引擎提高检索能力,知识存储能力又数据库,逻辑推理能力又专家系统
人工智能的发展需要引入政府的监管,设定规则。