机器学习小白术语指南
关于机器学习领域很小一部分的术语解释,会保持持续更新,非小白者大可不看:
样本:
已经知道结果的历史数据称为标记数据(Labeled data),每一条独立的标记数据叫做样本,如:一条客户的信息记录。
训练集:
训练过程中使用的数据叫做“训练集”,其中每条样本叫做一个“训练样本”,多条训练样本组成的集合叫做训练集。
验证集:
通过学习训练样本得到模型后,使用模型进行对新的已标记数据进行预测的过程叫做验证,用于预测的样本就叫做验证样本。
训练集和验证集都是Labeled data,所以训练、验证集里label是有已知答案的。
测试集:
通常把学得模型在实际预测使用中遇到的数据称为测试集,测试集的答案是未知的,需要通过模型去获得答案。
特征(属性/变量):
反应事件或对象在某方面的表现或性质的事项(每列),如:“年龄”,“身高”。
离散变量
变量取值只能取离散型的自然数,就是离散型随机变量。
比如,一次掷20个硬币,k个硬币正面朝上,k是随机变量,k的取值只能是自然数0,1,2,…,20,而不能取小数3.5,因而k是离散型随机变量。
连续变量
如果变量可以在某个区间内取任一实数,即变量的取值可以是连续的,这随机变量就称为连续型随机变量。
比如,公共汽车每15分钟一班,某人在站台等车时间x是个随机变量,x的取值范围是[0,15),它是一个区间,从理论上说在这个区间内可取任一实数,如3.5,因而称这随机变量是连续型随机变量。
分类:
如果预测的是离散值(A或B或C...),此类学习任务的最终目的是将样本划分到这些类别(属于A类或B类...)当中,因此称为分类。
预测值中涉及了两个分类的任务叫做二分类,如:是或不是。预测值涉及多个类别时(大于2),则称为多分类。
过拟合:
把训练样本学得太过于好,把只有训练样本自己具有的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化能力下降,这种现象称为<span id="overfit">过拟合</span>。即,在训练集和验证集上的效果差距很大。
泛化能力:
学到的模型适用于新样本的能力,称为“泛化”能力。
欠拟合:
对训练样本的一般性质尚未学好,模型未训练好。
时间穿越:
用未来的数据训练的模型去预测过去发生的事,称之为<span id="时间穿越">时间穿越</span>。
比如,一份样本数据包含了7月份和8月份的用户行为数据,按照随机拆分,划分的结果将为训练集和测试集中都可能含有7月和8月的数据,这样的数据在训练时没有问题,但是在预测评估时,会导致数据指标优于实际情况,例如,若真实的AUC应该是0.7,那么在这样的数据集上评估出的结果就会大于0.7。