第一周
2.25-3.3
开学第一周学习了逻辑回归算法以及算法的实验、python on data、论文On The Monitoring of Linear Profiles
逻辑回归:
逻辑回归从字面上来说很容易被误认为是线性的回归模型,但其实不是的,逻辑回归不是回归问题而是一个典型的二项分类问题。它的分类原理就是在重复的训练算法的是过程当中找到最佳的分类回归系数。
一、基本概念
逻辑回归和线性回归都属于广义的线性回归模型,在这里我们先说说线性回归:
1.1 线性回归
线性回归是根据已知的数据来预测可能数值。线性回归的方程:y=wx+b,其中x为输入的特征,y是输出的标签。
1.2sigmoid函数
我们需要的函数是能够接收所有的输入然后进行分类输出的结果。单位阶跃函数在原点处从o阶跃到1,所以可以利用0.5作为分类的输出依据。
sigmoid函数形式:y=1/1+exp(-x)
sigmoid的函数的python实现代码:
1.3逻辑回归LR
逻辑回归是在线性回归的预测值的基础上来进行分类输出的,所以就是将sigmoid函数与线性回归结合,即:
y=1/1+exp(-wx+b);在机器学习中y是输出类别,x是输入的特征。
2.1正则化
2.1.1L1正则化
L1正则化就是使得样本集得到一个先验知识,使得样本集符合均值为0的拉普拉斯分布.
2.1.2L2正则化
L2正则化使得样本集先符合一个先验知识,样本集符合均值为0的正态分布
3.损失函数
损失函数就是指算法模型所得到的预测值与实际值之间的差值,损失函数的值越小则模型越好,不过也要注意过小则会导致过几拟合.
3.1损失函数的表达形式
问题:为什么要用对数损失函数作为逻辑回归的损失函数?
4.损失函数的最值求解
利用最大似然函数来求解损失函数的最小值
5.梯度下降法
逻辑回归的算法步骤:
初始化初始值
获取当前梯度
计算得到当前的学习步长
更新新的权重值
反复迭代
5.1BGD
5.2SDG
5.3MBGD
python on data
pandas 中以类型字典的方式来获取某列值或者某个值
iloc与loc 的区别
loc:works on the labels in the index(根据索引行的名字来获取值)
iloc:works on the positions in the index(根据数据在的行的位置来判断)