272：Sta base（2）--样本和总体

2023-09-21 本文已影响0人林芷文的日常碎碎念

统计知识方面的文章大多数来自一些统计书籍，然后个人理解有偏颇的地方还望大家指出和包涵，文中知识不一定具有指导意义，纯属个人笔记。欢迎指正和讨论。

统计学研究的核心问题是如何通过样本推断总体。举个例子来说，就是现在一家药企生产了一种新药，是用来治疗肺癌的。然后现在需要在肺癌患者进行试验，看一下这个新药的药效和安全性怎么样。

首先肯定不可能把所有的肺癌患者都集中在一起进行治疗，这个成本是难以想象的，所以我们需要召集一部分满足要求的肺癌患者来进行治疗，这部分肺癌患者可以说就是样本。

那么全国甚至世界上所有的肺癌患者就是我们研究的总体。统计的一部分作用就是通过这一部分样本去推断当这个药被用到总体的时候，我们有多大把握相信这个药依然有效。

所以这就会涉及到什么置信区间和P值啊(这个我们后面有机会好好学习)

置信区间:Confidence Interval (CI) 临床试验的结果都是对整个人群的估计。一项研究给出了一个置信区间(CI)作为反映对整个人群的真实影响的范围。这个值告诉我们统计计算的精确程度，并为我们提供了数据中涉及的误差量的估计。

比如说总生存率是81%，对应的95%CI是（78%~83%），也就是说，81%是这组受试者的平均生存时间，然后这个总体人群有95%的可能，它的生存时间会落在78%~83%的范围，这个范围的大小就是标准误(standard error)。

大家在检查自己输出结果的时候，可以先粗略的看下自己算出来的率是否在这个区间之内，也就是你看81%是不是在78%~83%的这个范围之内，如果不是，那就得去检查一下是为什么。

这个在计算ORR的时候，可能会因为只有部分受试者满足要求，然后在计算的时候率不在你计算的区间之内。

我觉得有些基本的概念还是要了解一下的，要不然你通过SAS算出的结果也不知道对不对，了解一些基础，对你选择正确的结果是有很大帮助的。

同时了解数据的类型也是很重要的，是连续型变量数据还是分类数据，运用的统计模型是不一样的，比如性别我们知道是分类数据，基线身高是连续型数据（除非进行分类），那么这两种数据类型运用的模型肯定是不一样的，对应到SAS的proc步也不一样,用错了，计算出来的P值可能天差地别。

我知道统计学是一门很严谨的学科，但是我写完文章几乎不会去检查问题，所以还是建议自己去找本书看看，或者看看其他博主写的文章。