2019-01-25 前言
作者对于建模的总体理念
· 建模的满意度取决于预测模型的精确程度和模型的统计学效能
· 好的建模要按步骤来,而不是建了再说
· 作图要基于正确的推断
· 建模中过拟合经常会出现,因此剔除数据和模型验证十分重要
· 数据收集的精力往往大于数据分析,因此使用高效而精确的建模手段是相当重要的。避免将连续变量分类,避免为了检验结果的好看而剔除数据。
· 重抽样法是统计建模的一大飞跃,分析师应当在建模的各个步骤使用bootstrap法
· 对缺失值进行插补好过行删除
· 方差常常是产生偏倚的主要原因,因此用带惩罚的最大似然估计处理偏倚和建模常能更准确地预测外部数据
· 没有分析和修正模型功能的所谓“傻瓜式软件”只是看起来user-friendly而已
· Carefully fitting an improper model is better than badly fitting (and overfitting) a well-chosen one.( fit a model不理解,拟合一个模型?)
· 适用于所有回归模型的方法是最为宝贵的
· “用数据去指导数据分析” 和不做数据分析一样危险(如何理解作者“用数据去指导数据分析”的意思?)
· 建模时需要决定有多少“自由度”可供支配(如参与回归的变量数)并决定把它们花在哪里
总体架构
1 简介
2 拟合回归模型的概述
3 缺失值处理
4 多变量建模策略
5 描述,重抽样,验证,简化模型
6 R软件(也是我最期待的章节,希望至少可以读到这里)
7 Modeling Longitudinal Responses using Generalized Least Squares (用广义最小二乘法模拟纵向响应)
8 Case Study in Data Reduction
9 最大似然比估计概述
10 二元Logistic回归
11 二元Logistic回归 Case Study 1
12 Logistic回归建模 Case Study 2:泰坦尼克号乘客的生存分析
13 有序logistic回归
14 有序logistic回归、数据剔除、惩罚 Case Study
15 连续因变量Y的有序logistic回归建模 Case Study
16 Transform-Both-Sides Regression
17 生存分析介绍(因为要用到,所以会优先阅读这里)
18 参数生存模型
19 参数生存模型和模型近似 Case Study
20 Cox比例风险回归模型:有一个疑问,既然生存分析存在参数法,为何现在最受欢迎的生存模型是半参数估计的Cox回归?
21 Cox回归 Case Study
以上是本书的主要内容,作者是范德堡大学的生物统计学教授Frank E Harrell,先前有了解到一致性指数C-index是教授于1996年提出的,至今在预后建模中仍然广泛使用。除此之外,Harrell教授还活跃在论坛上,搜索问题时经常能看到教授在回答网友提出的问题,回答中也可窥见教授对于统计学和建模理解的深入。
我是怀揣着对教授的敬仰翻开这本书的,也希望自己作为一名临床医学生可以静下心来去读它。