CH1 统计学习方法概论|1.1 统计学习《统计学习方法》-学习
文章原创,最近更新:2018-06-8
课程来源: 李航-统计学习方法
1.统计学习的特点
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习statistical machine learning)
学习笔记:
这里重点的词是模型、预测、分析
统计学习的主要特点是:
(1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的;(2)统计学习以数据为研究对象,是数据驱动的学科;
(3)统计学习的目的是对数据进行预测与分析;
(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论
学习笔记:
统计学相关的课程,具体如下:《高等数学》、《概率论及数理统计》、《矩阵分析》、《数值分析》、《偏微分方程》等
2.统计学习的对象
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提,这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库中的数据等。由于它们具有统计规律性,所以可以用概率统计方法来加以处理。比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。
在统计学习过程中,以变量或变量组表示数据。数据分为由连续变量和离散变量表示的类型。本书以讨论离散变量的方法为主。另外,本书只涉及利用数据构建模型及利用模型对数据进行分析与预测,对数据的观测和收集等问题不作讨论。
学习笔记:
统计学习的对象是数据,同类数据都有一定的统计规律性,用概率统计方法来加以处理.
3.统计学习的目的
统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。对数据的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高;对数据的分析可以让人们获取新的知识,给人们带来新的发现.
对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率.
学习笔记:
学习的目标:考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析.
4.统计学习的方法
统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成.
本书主要讨论监督学习,这种情况下统计学习的方法可以概括如下:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesisspace);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm).
实现统计学习方法的步骤如下
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析
本书以介绍统计学习方法为主,特别是监督学习方法,主要包括用于分类、标注与回归问题的方法。这些方法在自然语言处理、信息检索、文本数据挖掘等领
学习笔记:
1)统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成
2)学习方法的步骤:如上
5.统计学习的研究
统计学习研究一般包括统计学习方法(statistical learning method)、统计学习理论(statistical learning theory)及统计学习应用(application of statistical learning)三个方面。统计学习方法的研究旨在开发新的学习方法;统计学习理论的研究在于探求统计学习方法的有效性与效率,以及统计学习的基本理论问题;统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去,解决实际问题
学习笔记:
1)统计学习方法:开发新的学习方法
2)统计学习理论:统计学习方法的有效性与效率
3)统计学习应用:应用到实际问题中去,解决实际问题
6.统计学习的重要性
统计学习已被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机应用领域中,并且成为这些领域的核心技术。
学习笔记:
应用方法有:人工智能、模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索和生物信息.我比较关注的是数据挖掘.
统计学习学科在科学技术中的重要性主要体现在以下几个方面:
(1)统计学习是处理海量数据的有效方法。我们处于一个信息爆炸的时代,海量数据的处理与利用是人们必然的需求,现实中的数据不但规模大,而且常常具有不确定性,统计学习往往是处理这类数据最强有力的工具
(2)统计学习是计算机智能化的有效手段,。智能化是计算机发展的必然趋势,也是计算机技术研究与开发的主要目标。,近几十年来,人工智能等领域的研究表明,利用统计学习模仿人类智能的方法,虽有一定的局限性,但仍然是实现这目标的最有效手段
(3)统计学习是计算机科学发展的一个重要组成部分。可以认为计算机科学由三维组成:系统、计算、信息。统计学习主要属于信息这一维,并在其中起着核心作用.
学习笔记:
作用:处理海量数据/计算机智能化