269：Sta base（一）---数据的分类

2023-09-09 本文已影响0人林芷文的日常碎碎念

统计知识方面的文章大多数来自一些统计书籍，然后个人理解有偏颇的地方还望大家指出和包涵，文中知识不一定具有指导意义，纯属个人笔记。

到后面的时候，你会认识到一个合格且优秀的SAS程序员，不只是熟悉CDISC标准，这只是一方面；另外两个方面就是统计基础和对临床试验设计的理解，目前我啥也不是。

数据一般可以分为两种类型：一种是连续型数据，比如长度，时间，体重；我看了几本书，连续型数据应该可以叫做“计量资料”、“定量资料”，“度量资料”；(这3个应该是一样的，但是我不能保证)

另一种是离散型数据，就是对数据进行分类之后进行计数，比如某些检验结果阴性和阳性的人数，离散型数据也可以叫做"计数资料","定性治疗"。

当我们知道临床中的数据可以分为这上面两大类之后，如何对这两类数据进行分析，得到我们想要的结果呢？

不知道大家在写table的时候，发现table的类型大致可以分为以下几类:

1)计算频数

2)计算均值、中位数、标准差、最大值、最小值，有时候还会计算几何均值、方差、四分位数....

3)疗效性分析可能会求P值、置信区间.....

上面讲的这些就是统计要做的两件大事：统计描述和统计推断。可以简单地理解为这两个的作用分别是展现数据的分布是什么样，有什么特点；另一个就是你能根据现有的数据，推断出当你研究的对象（比如研究药物）运用到更大的样本的时候，是否还能起到一样的作用，或者跟其他药物相比，你这药是更有效还是效果一般般。

刚入这行的时候，我一直不明白的就是，我们只不过简单的计算了一些频次频数那些，还有其他一些统计量，那递交给监管机构的时候，凭什么说我这个药有效，比其他别人更好，其实就是通过这些我们分析的数据得出的结果证明的。

今天就讲讲研究或者说展示频数的意义:

根据我们计算的频数（通常以表或者图的形式展示）,我们可以了解数据的一些特征，比如：

1）数据的集中情况，比如数据都有聚集于某一个范围的趋势，我们常常用平均值表示全部数据的集中点(当然还有中位数和众数)

2)了解数据的变异程度,我们研究的数据是集中分布在平均数附近，还是分散在平均数的两侧。如果数据大部分集中在平均数附近，远离平均数的两侧数据比较少，这样的数据是比较整齐的；如果分布在平均数附近的数据和分布在远离平均数的两侧数据差不多，那我们说这样的数据是比较分散的。

3）数据可能有一些不规则的情况或者一些极端值，那么当出现这样的情况的时候，提醒我们需要去检查为什么会出现这样的情况，接着研究并做出进一步正确的决定。

统计的知识点一点点循序渐进吧，慢慢来，当初上学的时候有多轻松，现在学的就有多"痛苦"。