数据仓库与数据挖掘技术—决策树与神经网络
ID3算法是基于信息熵的决策树学习算法。在决策树各级节点上选择属性时,检测所有的属性,选择信息熵最大的属性产生决策树节点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树节点的分支,直到所有子集仅包含同一类别的数据为止。最后得到一颗决策树,它可以队新的样本进行分类
C4.5算法采用基于信息增益率的方法选择测试属性,克服了ID3算法使用信息增益率选择属性时偏向于取值较多的属性的不足
贝叶斯分类是一种基于统计学的分类方法,可以预测一个类成员关系的可能性,即给定样本属于特定类的概率
朴素贝叶斯:使用贝叶斯公式进行预测,假定各个属性之间是独立的,然后利用贝叶斯公式及有关概率公式计算各实例的条件概率值,并选取其中概率最大的类别作为预测值
贝叶斯网络:一个带有注释的有向无环图,以有效表示大变量集的联合概率分布,适用于分析大量变量之间的相互关系
神经网络:由大量神经元互联而成的网络,神经网络模型由三个层次组成:输入层、中间层、输出层
神经网络的基本学习方法
1、误差矫正学习
当神经网络的实际输出与目标输出产生误差时,利用误差信号来矫正调整神经元之间的连接权重
2、Hebbian学习
如果一个神经元从另一个神经元接受输入激励信号,并且两者均处于高激励电平时,则两个神经元之间的权重就应当增强
3、竞争学习
在训练过程中,所有神经元均参与彼此之间的竞争,竞争过程按照“胜者为王”的竞争抉择算法
4、随机学习
利用随机过程、概率和能量关系来调节连接权重
5、基于存储器学习
所有用来训练网络的输入输出映射以及实现这个目标映射的相关先验数据都需要存储在存储器中。基于存储学习包含基本的两部分:测试模式数据的局部近邻的定义和应用于此训练模式的学习规则。最近邻规则、k近邻规则是典型的基于存储器的学习规则
近邻分类方法:基于距离函数的分类法,其核心思想就是使用一个类的重心来代表这个类,计算待分类样本到各类重心的距离,归入距离最近的类。如果允许类中全部样本点都有资格作为类的代表的话,这就是最近邻法。最近邻法不是仅仅比较与各类均值的距离,而是计算与所有样本点之间的距离,距离近者归入所属类
k近邻是选取离待分类样本最近的k个代表点