程小猿成长记 2019年第0记
通过本文的学习,希望你能够熟悉机器学习常用术语,理解常用线性模型,决策树模型,NN模型基本原理,并运用sk-learn,tf实践常用的LR,GBDT,DNN模型。
第一篇、基本概念和数学基础
定义:如果一个计算机程序在任务T上,随着输入经验E的增加,效果P也随之变好,则称这个计算机程序可以从经验E学习。 – Tom Michael Mitchell
1.理论
概述
学习过程:输入训练数据,利用特定机器学习方法建立模型(估计函数),向模型输入测试数据,模型有能力对未知的数据进行正确的估计。
三要素
目标(假设)函数:对具体样本分布的问题假设,描述自变量与因变量之间的关系,如线性函数;
损失函数:衡量目标函数预测值与真实值之间的误差,如均方根误差;
求最优解算法:梯度下降法(非常重要),最小二乘法等;
常用模型
线性,决策树,神经网络;
其他
机器为什么能学习:https://blog.csdn.net/Young_Gy/article/details/56281760
机器学习基本概念:https://developers.google.com/machine-learning/glossary/
数学基础:https://zhuanlan.zhihu.com/p/25197792
线性代数视频:https://www.bilibili.com/video/av6731067
PAC Learnability:https://www.cnblogs.com/wacc/p/4338437.html
2.实践
安装anaconda(环境管理)、scikit-learn(开源机器学习库)、TensorFlow(开源深度学习库);
了解学习numpy(矩阵处理库)、pandas(数据读取库)、matplotlib(图形可视化库);
第二篇、线性模型
线性模型是最基础的回归模型,自变量因变量之间存在线性关系,主要包括线性回归,逻辑回归(主要用于分类)。
1.理论
理解线性回归和逻辑回归:https://blog.csdn.net/JoyceWYJ/article/details/51596797
为什么逻辑回归是线性模型:http://www.cnblogs.com/huangshiyu13/p/6883138.html
理解SVM三层境界(超级赞):https://blog.csdn.net/v_JULY_v/article/details/7624837
常用的模型评估方法:详细
2.实践
用scikit-learn和pandas学习线性回归:https://www.cnblogs.com/pinard/p/6016029.html
应用LR对泰坦尼克乘客存活做预测:https://jeffshow.com/titanic-survival-predict-based-on-sklearn-lr-model.html
第三篇、树模型
1.理论
决策树
ID3和CART算法(上): http://www.cnblogs.com/pinard/p/6050306.html
ID3和CART算法(下): https://www.cnblogs.com/pinard/p/6053344.html
GBDT
基本原理:https://www.cnblogs.com/pinard/p/6140514.html
残差和负梯度关系(超级赞):http://aandds.com/blog/ensemble-gbdt.html
高性能GBDT
XGBoost:https://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf
LightGBM:https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf
2.实践
波士顿房价预测:https://cloud.tencent.com/developer/article/1331828
第四篇、神经网络模型
1.理论
深度学习入门(code超级赞):https://www.zybuluo.com/hanbingtao/note/433855
语料的向量表示之word2vector:https://mp.weixin.qq.com/s/Hj1yfL8xIEPg1AdaJcHwJw
深度学习入门必须理解这25个概念:https://blog.csdn.net/pangjiuzala/article/details/72630166
2.实践
Tensorflow简单神经网络解决Kaggle比赛Titanic问题:https://blog.csdn.net/qq_30611601/article/details/79220192
第五篇、系统学习
1.视频
林軒田:機器學習基石
上:https://www.coursera.org/learn/ntumlone-mathematicalfoundations
下:https://www.coursera.org/learn/ntumlone-algorithmicfoundations
Andrew NG:机器学习
http://open.163.com/special/opencourse/machinelearning.html
Andrew NG:深度学习
https://mooc.study.163.com/smartSpec/detail/1001319001.htm
谷歌机器学习速成课程
https://developers.google.cn/machine-learning/crash-course/ml-intro
2.书籍
李航:统计学习方法
周志华:机器学习(西瓜书)
深度学习 [deep learning](花书)