R语言机器学习与临床预测模型57--机器学习统计基础(资料大放送

2022-06-02  本文已影响0人  科研私家菜

本内容为【科研私家菜】R语言机器学习与临床预测模型系列课程

你想要的R语言学习资料都在这里, 快来收藏关注【科研私家菜】


01 统计基础故事集之女士品茶

概率是一个非常古老概念的现代用语,它曾出现在亚里士多德(Aristotle)的著作中。这位先哲声称:“不可能事件将会发生,这正是概率的特性。”起初,概率只是涉及到个人对什么事件即将发生的预测,在17 和18 世纪,一批数学家,其中包括贝努里(Bernoullis)父子、费尔马(Fermat)、棣莫弗(de Moivre)、帕斯卡(Pascal)都在以机会博弈(gamesof chance)为起点去研究概率的数学理论。他们发明一些非常高级的方法,用来计算等可能事件,棣莫弗设法在这些技术中加进微积分的方法,贝努里则可以领悟出非常基础的定理,叫大数定律(Laws of large numbers)。到了19 世纪末期,数理概率主要由一些非常高级的技巧构成,但还缺少坚实的理论基础。
尽管不够完善,还是可以证明概率理论对发展统计分布(statistics distribution)观念的作用。当我们考虑一个特殊的科学问题时,就会产生一个统计分布。例如,在1971年,哈佛公共卫生学院所做的一项研究发表在英国的医学期刊《柳叶刀》(Lancet)上,这项研究旨在检验喝咖啡是否与下泌尿道癌有关。研究的报告以一级病人为对象。其中一些人患有下泌尿道癌,另一些人则患有其它疾病。报告的作者还搜集了这组病人的其它资料,如年龄、性别和家族的癌症病史等。结果证明,并不是每个喝咖啡的人都会得泌尿道癌,也不是每个得泌尿道癌的人都圆角咖啡,所以存在着与他们的假设相矛盾的事件。然而,25%的此类癌症患者习惯每天喝4 杯以上咖啡,只有10%的非癌症患者是这种咖啡嗜好者,因而,似乎有一些证据支持这种假设。
这种资料的搜集给研究者提供了一个统计的分布。运用数理概率的工具,他们为这个分布建造了一个理论公式,称之为概率分布函数(probability distribution function),或简称分布函数(distribution function),以此来检验所研究的问题。它与拉普拉斯的误差函数相似,但却复杂许多。运用概率论来建造理论分布函数,而这个函数用来描述从未来数据中所能得到的预期结果,这些数据是以随机方式从同一总体的人群中提取的。


02 R包的分类介绍

  1. 空间数据分析包
    1)分类空间数据(Classes for spatial data)
    2)处理空间数据(Handling spatial data)
    3)读写空间数据(Reading and writing spatial data)
    4)点格局分析(Point pattern analysis)
    5)地质统计学(Geostatistics)
    6)疾病制图和地区数据分析(Disease mapping and areal data analysis)
    7)生态学分析(Ecological analysis)
  2. 机器学习包
    1)神经网络(Neural Networks)
    2)递归拆分(Recursive Partitioning)
    3)随机森林(Random Forests)
    4)Regularized and Shrinkage Methods
    5)Boosting
    6)支持向量机(Support Vector Machines)
    7)贝叶斯方法(Bayesian Methods)
    8)基于遗传算法的最优化(Optimization using Genetic Algorithms)
    9)关联规则(Association Rules)
    10)模型选择和确认(Model selection and validation)
    11)统计学习基础(Elements of Statistical Learning)
  3. 多元统计包
    1) 多元数据可视化(Visualising multivariate data)
    2) 假设检验(Hypothesis testing)
    3) 多元分布(Multivariate distributions)
    4) 线形模型(Linear models)
    5) 投影方法(Projection methods)
    6) 主坐标/尺度方法(Principal coordinates / scaling methods)
    7) 无监督分类(Unsupervised classification)
    8) 有监督分类和判别分析(Supervised classification and discriminant analysis)
    9) 对应分析(Correspondence analysis)
    10) 前向查找(Forward search)
    11) 缺失数据(Missing data)
    12) 隐变量方法(Latent variable approaches)
    13) 非高斯数据建模(Modelling non-Gaussian data)
    14) 矩阵处理(Matrix manipulations)
    15) 其它(Miscellaneous utitlies)
  4. 药物(代谢)动力学数据分析
  5. 计量经济学
    1)线形回归模型(Linear regression models)
    2)微观计量经济学(Microeconometrics)
    3)其它的回归模型(Further regression models)
    4)基本的时间序列架构(Basic time series infrastructure)
    5)时间序列建模(Time series modelling)
    6)矩阵处理(Matrix manipulations)
    7)放回再抽样(Bootstrap)
    8)不平等(Inequality)
    9)结构变化(Structural change)
    10)数据集(Data sets)

03 福利大放送

以上只是冰山一角,所有内容都在以下的分享资料中。

憋说话,上菜!!!




关注R小盐,关注科研私家菜(VX_GZH: SciPrivate),有问题请联系R小盐。让我们一起来学习 R语言机器学习与临床预测模型

上一篇下一篇

猜你喜欢

热点阅读