这些机器学习术语你会了么?
文章来源于微信公众号(茗创科技),欢迎有兴趣的朋友搜索关注。
机器学习术语
对于机器学习一词或许大家已耳熟能详,因为机器学习现已成为许多研究领域的首选技术。机器学习是通过一些让计算机可以自动“学习”的算法并从数据中分析获得规律,然后利用规律对新样本进行预测。但是对于机器学习中包含的许多概念,或许对于刚踏入机器学习领域的小伙伴们来说,还是比较陌生。下文整理了一些机器学习领域的相关概念,希望有助于大家更深入地理解该领域的技术方法。
Class 类
一个对象所属的类别。在一个类中,一组模式共享公共属性并且通常来自同一个源。
Pattern 模式
一个对象的特征集合,以及该对象的类信息。
Sample 样本
对象的任何给定的模式都称为样本。
Feature 特征
一组带有区分和鉴别一个对象的信息的变量。
Feature Vector 特征向量
一个样本中K个特征的集合,以某种方式排列成K维向量。
Feature Space 特征空间
特征向量所在的K维空间。
Training Set 训练集
用于训练模型内参数的数据集,可用来估计模型。
Validation Set 验证集
用于确定网络结构或者控制模型复杂程度的参数。
Test Set 测试集
用于检验最终选择最优的模型的性能如何。
Accuracy 精度
或称准确率,表示分类模型正确分类的样本数(包括正例与反例)与样本总数的比值。
Precision 精确率
模型正确分类的正例样本数与总的正例样本总数(即正确分类的正例样本数目与错误分类的正确样本数目之和)的比值。
Recall 召回率
或称查全率,表示模型分类正确的正例样本数与分类正确的样本总数(分类正确的正例和分类正确的反例之和)的比值。
Algorithm 算法
指解题方案的准确而完整的描述,算法是一系列解决问题的清晰指令,它代表着用系统的方法描述解决问题的策略机制,能够对一定规范的输入,在有限时间内获得所要求的输出。
Feature Selection 特征选择
从特征集合中挑选一组最具统计意义的特征子集,从而达到降维的效果。常用的方法是用一些评价指标单独地计算出单个特征跟类别变量之间的关系。这些评价指标如Pearson相关系数、基尼指数(Gini-index)、信息增益(Information Gain)等。
Feature Extraction 特征提取
自动地构建新的特征,将原始数据转换为一组具有明显统计意义的核心特征。通过变换特征取值来减少原始数据中某个特征的取值个数等,减少特征的数量,或者只选择关键特征。常用的特征提取方法有:主成分分析、独立成分分析、线性判别分析。
Visual Analytics 可视化分析
可视化分析是一种数据分析方法,利用人类的形象思维将数据关联,并映射为形象的图表。可视化分析在机器学习的数据预处理、模型选择、参数调优等阶段十分有用。在数据建模的过程中,容易辨别出数据的分布、异常、参数取值对模型性能的影响等。
Classification 分类算法
应用分类规则对记录进行目标映射,将其划分到不同的分类中,构建具有泛化能力的算法模型,即构建映射规则来预测未知样本的类别。主要包括预测和描述两种,经过训练集学习的预测模型在遇到未知记录时,应用规则对其进行类别划分,而描述型的分类主要是对现有数据集中特征进行解释并进行区分,例如对面孔的各项特征进行描述,并进行标记分类,由这些特征来决定其属于哪一类目。主要的分类算法包括决策树、支持向量机、最近邻、贝叶斯网络和神经网络等。
Decision Tree 决策树
是一棵用于决策的树,目标类别作为叶子结点,特征属性的验证作为非叶子节点,而每个分支是特征属性的输出结果。决策过程是从根结点出发,测试不同的特征属性,按照结果的不同选择分支,最终落到某一叶子结点,获得分类结果。擅长对人物、位置、事物的不同特征、品质、特性进行评估,可应用于基于规则的信用评估、比赛结果预测等。
Support Vector Machine,SVM 支持向量机
属于有监督学习模型,主要用于解决数据分类问题。将低维特征空间中的线性不可分进行非线性映射转化为高维空间的线性可分,SVM的目标变量以分类最佳,与其他分类算法相比,支持向量机对小样本数据集分类效果更好。SVM常见的核函数有线性核函数、多项式核函数、径向基函数和二层神经网络核函数等。
K Nearest Neighbors,KNN 最近邻
是有监督学习中的分类算法。KNN的字面意思是K个最近的邻居。其核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数数以一个类别,则该样本也属于这个类别,并具有该类别上样本的特征。该方法在确定分类决策上,只依据最近邻的一个或者几个样本的类别来决定待分样本所属的类别。
Bayesian network 贝叶斯网络
贝叶斯网络又称为置信网络或信念网络(Belief network),是基于贝叶斯定理绘制的具有概率分布的有向弧段图形化网络,其理论基础是贝叶斯公式,网络中的每个点表示变量,有向孤段表示两者间的概率关系。
Neural Networks 神经网络
神经网络是基于历史数据构建的模型,包括输入层、隐藏层、输出层,每一个节点代表一个神经元,节点之间的连线对应权重值,输入变量经过神经元时会运行激活函数对输入值赋予权重和加上偏置,并将输出结果传递到下一层中的神经元,而权重值和偏置是在神经网络训练过程中不断进行修正的。
Random Forest 随机森林
专为决策树分类器设计的集成方式,是装袋法的一种拓展。随机森林与装袋法采取相同的样本抽取方式。装袋法中的决策树每次从所有属性中选取一个最优的属性作为其分支属性,而随机森林算法每次从所有属性中随机抽取t个属性,然后从这t个属性中选取一个最优的属性作为其分支属性,这样就使得整个模型的随机性更强,从而使模型的泛化能力更强。
Deep Learning,DL 深度学习
深度学习方法是通过使用多个隐藏层和大量数据来学习特征,从而提升分类或预测的准确性。
Supervised Learning 监督学习
是从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。其训练集要求包括输入和输出,也可以说是特征和目标。
Supervised Learning 有监督学习
利用训练数据集进行预测的机器学习任务。有监督学习可以分为分类和回归。
Unsupervised Learning 无监督学习
根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。
Semi-Supervised Learning,SSL 半监督学习
在某些情况下,获取标记数据是昂贵且耗时的。在响应标记很少的情况下,半监督学习结合有监督和无监督学习技术进行预测。在半监督学习中,利用未标记数据对标记数据进行扩充以提高模型准确率。
Hyperparameter 超参数
超参数是机器学习算法的调优参数,常应用于估计模型参数的过程中,由用户直接指定,可以使用启发式方法来设置,并能依据给定的预测问题而调整。
Discriminant Analysis 判别分析
利用已知类别的样本建立判别模型,对未知类别的样本进行判别的一种统计方法,包括线性判别分析(LDA)和二次判别分析(QDA)两种类型。
Principal Component Analysis 主成分分析
是最常用的线性降维方法,其目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的方差最大,以此使用较少的维度,同时保留较多原数据的维度。
Artificial Neural Netork,ANN 人工神经网络
由简单神经元经过相互连接形成网状结构,它是以层(layer)的形式组织起来,每层中包含多个神经元,层与层之间通过一定的结构连接起来,对神经网络的训练目的就是要找到网络中各个突触连接的权重和偏置值。
K-Fold Cross Validation k折交叉验证法
将样本集随机地划分为k个大小相等的子集,在每一轮交叉验证中,选择一个子集作为检验集,其余子集作为训练集,重复k轮,保证每一个子集都作为检验集出现,用K轮检验结果取平均值作为模型好坏的评价标准。最常用的k折交叉验证法为十折交叉验证。
Leave one out 留一法
留一法是指每次检验集中只包含一个样本的交叉验证方法。
Cluster Analysis 聚类分析
一种典型的无监督学习,用于对未知类别的样本进行划分,将其按照一定的规则划分成若干个类族,把相似的样本聚在同一个类簇中,把不相似的样本分为不同类簇,从而揭示样本之间内在的性质以及相互之间的联系规律。
k-means clustering algorithm k-均值聚类
是一种基于划分的聚类算法,计算样本点与类簇质心的距离,与类簇质心相近的样本点划分为同一类簇。k-均值通过样本间的距离来衡量它们之间的相似度,两个样本距离越远,则相似度越低,否则相似度越高。
Mutual Information,MI 互信息
互信息表示两个变量x与y是否有关系,以及关系的强弱,可用于文本分类。用MI作为特征词和类别之间的测度,如果特征词属于该类,则表示它们的互信息量最大。由于该方法为统计方法,不需要对特征词和类别之间关系的性质做任何假设,因此适合于文本特征和类别的匹配检验。
Pointwise Mutual Information 点互信息
用于度量事物之间的相关性,在文本分析领域,可用其计算词语间的语义相似度,基本思想是统计两个词语同时出现的概率,如果概率越大,其相关性就越大,关联度越高。
Feedforward Neural Network 前馈神经网络
是一种单向多层的网络结构,即信息是从输入层开始,逐层向一个方向传递,一直到输出层结束。所谓的“前馈”是指输入信号的传播方向为前向,在此过程中并不调整各层的权值参数。
Back Propagation,BP 反向传播
BP神经网络也是前馈神经网络,只是其参数权重值是由反向传播学习算法进行调整的。BP神经网络模型拓扑结构包括输入层、隐层和输出层,利用激活函数来实现从输入到输出的任意非线性映射,从而模拟各层神经元之间的交互。
Self-Organizing Map 自组织神经网络
或称Kohonen网,这一神经网络的特点是当接收到外界信号刺激时,不同区域对信号自动产生不同的响应。这种神经网络是在生物神经元上首先发现的,如果神经元是同步活跃的则信号加强,如果异步活跃则信号减弱。
Convolutional Neural Networks 卷积神经网络
卷积神经网络是为识别二维形状而特殊设计的一个多层感知器,由输入层、隐藏层、输出层组成,隐藏层可以有很多层,每层由一个或多个二维平面组成,而每个平面由多个独立神经元组成。
Recurrent Neural Network 循环神经网络
是一种对序列数据建模的神经网络。RNN不同于前向神经网络,它的层内、层与层之间的信息可以双向传递,更高效地存储信息,利用更复杂的方法来更新规则,通常用于处理信息序列的任务。
Learning rate 学习率
学习率作为监督学习以及深度学习中重要的超参,其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值,过高和过低的学习率都可能对模型结果带来不良影响,合适的学习率可以加快模型的训练速度。
Ensemble Learning 集成学习
集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。比较常见的集成学习方法有随机森林等。
Multi-Layer Perceptron,MLP 多层感知机
是深度神经网络的基础算法。多层感知机含有至少一个隐藏层的由全连接层组成的神经网络,且每个隐藏层的输出通过激活函数进行变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。
Oversampling 过采样
是指对训练集里的某类样例增加采样次数以减小类别不平衡。
Overfitting 过拟合
所选模型的复杂度比真模型更高,学习时选择的模型所包含的参数过多,对已知数据预测得很好,但是对未知数据预测性能变差的现象。
Underfitting 欠拟合
是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。机器学习中一个重要的话题便是模型的泛化能力,泛化能力强的模型才是好模型,对于训练好的模型,若在训练集表现差,在测试集表现同样会很差,这可能是欠拟合导致。
参考来源:
Osman, A. , & Tamam, N. M. . (2022). Deep learning-based convolutional neural network for intra-modality brain mri synthesis. Journal of Applied Clinical Medical Physics, 1-11.
Gaudart, J. , Giusiano, B. , & Huiart, L. . (2018). Comparison of the performance of multi-layer perceptron and linear regression for epidemiological data. Computational Statistics & Data Analysis, 44(4), 547-570.
Weston, J. , Ratle, F. , Mobahi, H. , & Collobert, R. . (2008). Deep learning via semi-supervised embedding. ACM.
Sikelis, K. , & Tsekouras, G. E. . (2022). Feature Selection with a Backtracking Search Optimization Algorithm.
Kumar, J. , Rashid, M. , Musa, R. M. , Razman, M. , & Majeed, A. . (2022). The Classification of Wink-Based EEG Signals: An Evaluation of Different Transfer Learning Models for Feature Extraction.
Golan, T. , Siegelman, M. , Kriegeskorte, N. , & Baldassano, C. . (2022). Testing the limits of natural language models for predicting human language judgments.
Price, Rumi, Kato, Spitznagel, Edward, & L. (2000). Applying artificial neural network models to clinical decision making. Psychological Assessment.
Vaish, P. P. , Rani, K. , & Kumar, S. . (2022). Cyclic learning rate based hybridsn model for hyperspectral image classification.
Grüttemeier, Niels, Komusiewicz, C. , & Morawietz, N. . (2022). Efficient bayesian network structure learning via parameterized local search on topological orderings. arXiv e-prints.
Ramirez, Chaves, Gorriz, Lopez, Lvarez, & SalasGonzalez, et al. (2009). Computer aided diagnosis of the Alzheimer's disease combining SPECT-based feature selection and random forest classifiers. Nuclear Science Symposium Conference Record. IEEE.
Joutsiniemi, S. L. , & Kaski, S. . (1995). Self-organizing map in recognition of topographic patterns of eeg spectra. IEEE Transactions on Biomedical Engineering, 42(11), P.1062-1068.
Kawahara, J. , Brown, C. J. , Miller, S. P. , Booth, B. G. , & Hamarneh, G. . (2017). Brainnetcnn: convolutional neural networks for brain networks; towards predicting neurodevelopment. Neuroimage, 146, 1038-1049.
Li, S. , & Y Bai. (2022). Deep learning and improved hmm training algorithm and its analysis in facial expression recognition of sports athletes. Computational Intelligence and Neuroscience, 2022.
Zhou, Z. H. . (2011). When semi-supervised learning meets ensemble learning. SP Higher Education Press (Vol.6, pp.6-16). SP Higher Education Press.