生物统计学真好玩

Oncoscan CNV 芯片处理流程

2022-02-24  本文已影响0人  不会生信哟

杀杀

最近在学习处理Oncoscan的CNV芯片raw data流程,在这里记录一下。

OncoScan数据分析

第一步:chAS

软件:chAS

下载链接和使用文档:

https://www.thermofisher.cn/cn/zh/home/life-science/microarray-analysis/microarray-analysis-instruments-software-services/microarray-analysis-software/chromosome-analysis-suite.html

📎oncoscan_console_user_guide.pdf

📎chas-v4.3-user-guide.pdf

准备文件 : .CEL格式文件(芯片版本:6.0),每个患者会有A的和C的,示例数据中还包含了白细胞的用于去除假阳性,准备这些文件以导入chAS软件。下载chAS时注意要下载参考基因组文件。

注意设置输出文件夹,参考基因组,以及输出文件的后缀。

在导入AT和GC文件的时候务必注意相同patiend id的要行行对应,不然会跑错。

这边建议是把AT的放一个文件夹,GC放一个文件夹,然后对文件名排序一下,然后检查一下再导入。

然后就让它自己跑,文件多的话要几个小时。

image

最后出来的结果就是一些QC的结果,以及可以通过点击export来导出几种文件

包括gene level, probeset level segment level的文件。也可以导出igv能够识别的格式,放进igv中进行查看。

第二步:去除假阳性位点

假阳性位点原本使用nexus软件直接筛选,但是这个软件已经下架了,可选的方法只有将导出文件导入IGV软件进行可视化,然后筛选位点(这一步应该只能筛选片段,不能筛选位点),或者是用R语言处理。

本次实验最终采用了R语言处理的方法。把23个白细胞样本的probeset level文件取出。因为探针水平的log2ratio变化比较大,因此我们选择将探针map到segment level的文件中,取segment level的log2ratio为每个探针的log2ratio。然后将在超过半数(>=12)例中|log2ratio| > 0.1的位点(阈值取0.1是因为师兄发现0.1和nexus中的参数能对上)认为是germline的变异,属于假阳性,在肿瘤样本的位点中应被去除。

去除假阳性位点之后,可以将文件导出,作为ascat的输入文件。

ascat教程 https://github.com/VanLoo-lab/ascat

假阳性segment筛选:segment

第三步:使用ASCAT包推断肿瘤纯度、倍性和等位基因特异性拷贝数谱 ASCAT_2.5.2

输入文件为chas输出的原始探针file,上一步进行了假阳性位点的筛选,这一步直接导入ascat,按照ASCAT推荐文档的格式处理好

https://github.com/VanLoo-lab/ascat/tree/master/ExampleData

ascat.loadData("Tumor_LogR.txt","Tumor_BAF.txt")

同时进行阳性ascat探针的筛选,同时导入肿瘤和白细胞的数据,筛选阴性segment,在肿瘤的ascat结果中去除假阳性,方法为,将假阳性片段(假阳性片段要提前经过筛选,23个样本中,相似片段要在超过12个样本中出现才算假阳性)前后扩大一半,如果肿瘤的segment落在这个扩大的假阳性片段内,则认为是假阳性。

Ascat文件输出后,需要计算片段的拷贝数以及片段内包含的探针数,计算过后将片段文件和探针文件输入GISTIC2进行最后一步计算。

第四步:GISTIC 2.0

在linux系统中安装软件,或者直接使用在线软件分析
https://cloud.genepattern.org/gp/pages/index.jsf?lsid=urn:lsid:broad.mit.edu:cancer.software.genepattern.module.analysis:00125:6.15.28

上一篇下一篇

猜你喜欢

热点阅读