关于-机器学习还应该准备的一些知识
1.感觉最常考的是各种算法的过拟合和欠拟合
2. 概率分布的一些数学知识
3. 各种距离的应用:比如马氏距离用来计算离群点的
4. 随机森林和GradientBoosting tree
5. 集成学习
6. 在线学习
7. 特征工程 https://www.zhihu.com/question/28641663/answer/41653367
8. 如何处理数据集不均匀问题 http://blog.csdn.net/login_sonata/article/details/54290402
9. 模型的bias(偏差)和Variance(方差)https://www.zhihu.com/question/27068705
10. 回归分析中的一些指标 SSE,MSE,RMSE,R-square AUC与RUC
http://blog.csdn.net/l18930738887/article/details/50629409
https://discuss.analyticsvidhya.com/t/difference-between-r-square-and-adjusted-r-square/264/3
11. 多重线性相关
12. 拟牛顿法与最小二乘法
13. 处理稀疏数据、异常数据、非规则数据
14. 哪些算法预处理需要去掉离群点和噪声点?
常考的算法以及知识
基础知识:什么是生成模型、什么是判别模型
1. 逻辑回归(推导、随机梯度下降、训练样本很多的情况)
2. SVM
3. NB(公式、贝叶斯估计、拉普拉斯平滑,可以聚类吗)
4. EM | HMM
5. 线性判别式LDA
6. k-means分布式
7. fp-growth的过程
8. 深度学习
9. 如何处理分词,比如微信、微、信
10. 随机森林rf和GDBT
一些数据结构与算法:
1. 堆排序(时间复杂度、建堆的时间)
2. 快排 (递归、循环实现)
3. 动态规划
4. 最长公共子序列(后缀树)
5. 一个数组最大的子数组之和
6. 一个无序数组,找三个数的最大乘积
7. 大数之和、大数乘积
8. 迷宫问题 (回溯、dfs、bfs)