课题研究

2022-07-19 Modeling of phenotype

2022-07-24  本文已影响0人  千容安

观察到减少的特征向量可以解释为ni试验中的ki成功的二项式对,来处理“表型负担”,只要ki远少于表型相关TCRβs的总数,就可以避免饱和。构建以ni和分类(class assignment)为条件的ki生成模型,可以保留深度采样信息。ci ∈ {0,1}定义为样本(人)的分类。样本中任何独特TCRβ与表型相关的概率被建模为一个二项式比例pi。我们假设pi值是独立的,每个类中的相同分布的随机变量如下。

在分类的条件下,样本(人)有了β二项分布:

(β二项分布有R包)
R:β-二项式分布 (r-project.org)

B(·,·)表示beta函数。参数{α0,β0}和{α1,β1}分别参数化了表型阴性和表型阳性样本的之前的beta分布。这些可以通过最大化所有受试者的联合概率来确定。

形成对数似然函数,去掉只依赖于数据的项,并利用参数的可分性,最大化

Nl为具有l类的受试者数量。这些目标函数都有梯度

其中,ψ(.)表示数字矩阵函数。采用标准的数值梯度上升方法来确定先前分类的β。

对每个类中采样最深的样本(最大的ni)使用拉普拉斯平滑来规范可能性。CMV数据估计先验密度在补充图4。

从所有训练对象的联合模型中确定了这些似然参数,我们现在考虑一个表型负担为k’,n’的新样本,在训练数据中的拉普拉斯正则化分类计数中近似的先验分类,对新样本的每个分类的后验概率为

分类的对数后验优势比为

决策函数由这个量上的阈值θ定义

最大后验(MAP)分类对应于θ=0

现在定义了分类器,我们可以解决一个模型选择问题。在识别与表型相关的TCRβs时,我们必须应用一个P值阈值。这个阈值是分类器的一个超参数。为了选择一个最优的P值阈值,我们在一个P值阈值范围内对训练数据进行详尽的留一交叉验证,评估每个P值的交叉熵损失。对于每一个样本,我们在给定的阈值(特征选择)下重新计算表型相关的TCRβs,仅使用其余的样本来拟合似然参数({α0,β0}和{α1,β1})。然后,我们使用这个分类器来估计该样本的分类概率。在所有受试者上迭代这个过程,可以得到训练集中每个样本的交叉验证分类概率。
qi(φ)表示由样本i构建的分类器下,从特征选择和训练中得到ci=1的概率。并使用φ的P值阈值来识别与表型相关的TCRβs。使用P值阈值φ将所有受试者的平均交叉熵损失定义为

通过计算离散P值集φ上的损失函数,可以近似于一个最小值。

交叉熵损失是衡量分类误差的最佳指标,因为它利用了生成模型提供的概率信息,而不是决策函数本身。最小化L(φ)等于最大化分类向量c的联合似然,其中每个受试者i的概率是从受试者i的模型计算出来的。在建模CMV数据时,使用了P值的对数网格(logarithmic grid),

表明
是近似最优
上一篇下一篇

猜你喜欢

热点阅读