程小猿成长记 2019年第0记

2018-12-03 本文已影响0人程晓猿

通过本文的学习，希望你能够熟悉机器学习常用术语，理解常用线性模型，决策树模型，NN模型基本原理，并运用sk-learn,tf实践常用的LR，GBDT，DNN模型。

第一篇、基本概念和数学基础

定义：如果一个计算机程序在任务T上，随着输入经验E的增加，效果P也随之变好，则称这个计算机程序可以从经验E学习。 – Tom Michael Mitchell

1.理论

概述

学习过程：输入训练数据，利用特定机器学习方法建立模型（估计函数），向模型输入测试数据，模型有能力对未知的数据进行正确的估计。

三要素

目标(假设)函数：对具体样本分布的问题假设，描述自变量与因变量之间的关系，如线性函数；

损失函数：衡量目标函数预测值与真实值之间的误差，如均方根误差；

求最优解算法：梯度下降法(非常重要)，最小二乘法等；

常用模型

线性，决策树，神经网络；

其他

机器为什么能学习：https://blog.csdn.net/Young_Gy/article/details/56281760

机器学习基本概念：https://developers.google.com/machine-learning/glossary/

数学基础：https://zhuanlan.zhihu.com/p/25197792

线性代数视频：https://www.bilibili.com/video/av6731067

PAC Learnability：https://www.cnblogs.com/wacc/p/4338437.html

2.实践

安装anaconda(环境管理)、scikit-learn(开源机器学习库)、TensorFlow(开源深度学习库)；

了解学习numpy(矩阵处理库)、pandas(数据读取库)、matplotlib(图形可视化库)；

第二篇、线性模型

线性模型是最基础的回归模型，自变量因变量之间存在线性关系，主要包括线性回归，逻辑回归（主要用于分类）。

1.理论

理解线性回归和逻辑回归：https://blog.csdn.net/JoyceWYJ/article/details/51596797

为什么逻辑回归是线性模型：http://www.cnblogs.com/huangshiyu13/p/6883138.html

理解SVM三层境界（超级赞）：https://blog.csdn.net/v_JULY_v/article/details/7624837

常用的模型评估方法：详细

2.实践

用scikit-learn和pandas学习线性回归：https://www.cnblogs.com/pinard/p/6016029.html

应用LR对泰坦尼克乘客存活做预测：https://jeffshow.com/titanic-survival-predict-based-on-sklearn-lr-model.html

第三篇、树模型

1.理论

决策树

ID3和CART算法(上)： http://www.cnblogs.com/pinard/p/6050306.html

ID3和CART算法(下)： https://www.cnblogs.com/pinard/p/6053344.html

GBDT

基本原理：https://www.cnblogs.com/pinard/p/6140514.html

残差和负梯度关系（超级赞）：http://aandds.com/blog/ensemble-gbdt.html

高性能GBDT

XGBoost：https://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf

LightGBM:https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf

2.实践

波士顿房价预测：https://cloud.tencent.com/developer/article/1331828

第四篇、神经网络模型

1.理论

深度学习入门(code超级赞)：https://www.zybuluo.com/hanbingtao/note/433855

语料的向量表示之word2vector：https://mp.weixin.qq.com/s/Hj1yfL8xIEPg1AdaJcHwJw

深度学习入门必须理解这25个概念：https://blog.csdn.net/pangjiuzala/article/details/72630166

2.实践

Tensorflow简单神经网络解决Kaggle比赛Titanic问题：https://blog.csdn.net/qq_30611601/article/details/79220192

第五篇、系统学习

1.视频

林軒田：機器學習基石

上：https://www.coursera.org/learn/ntumlone-mathematicalfoundations

下：https://www.coursera.org/learn/ntumlone-algorithmicfoundations

Andrew NG：机器学习

http://open.163.com/special/opencourse/machinelearning.html

Andrew NG：深度学习

https://mooc.study.163.com/smartSpec/detail/1001319001.htm

谷歌机器学习速成课程

https://developers.google.cn/machine-learning/crash-course/ml-intro

2.书籍

李航：统计学习方法

周志华：机器学习（西瓜书）

深度学习 [deep learning]（花书）

程小猿成长记 2019年第0记

第一篇、基本概念和数学基础

1.理论

概述

三要素

常用模型

其他

2.实践

第二篇、线性模型

1.理论

2.实践

第三篇、树模型

1.理论

决策树

GBDT

高性能GBDT

2.实践

第四篇、神经网络模型

1.理论

2.实践

第五篇、系统学习

1.视频

2.书籍

猜你喜欢

热点阅读