Oncoscan CNV 芯片处理流程

2022-02-24 本文已影响0人不会生信哟

杀杀

最近在学习处理Oncoscan的CNV芯片raw data流程，在这里记录一下。

OncoScan数据分析

第一步：chAS

软件：chAS

下载链接和使用文档：

https://www.thermofisher.cn/cn/zh/home/life-science/microarray-analysis/microarray-analysis-instruments-software-services/microarray-analysis-software/chromosome-analysis-suite.html

📎oncoscan_console_user_guide.pdf

📎chas-v4.3-user-guide.pdf

准备文件 : .CEL格式文件（芯片版本：6.0），每个患者会有A的和C的，示例数据中还包含了白细胞的用于去除假阳性，准备这些文件以导入chAS软件。下载chAS时注意要下载参考基因组文件。

注意设置输出文件夹，参考基因组，以及输出文件的后缀。

在导入AT和GC文件的时候务必注意相同patiend id的要行行对应，不然会跑错。

这边建议是把AT的放一个文件夹，GC放一个文件夹，然后对文件名排序一下，然后检查一下再导入。

然后就让它自己跑，文件多的话要几个小时。

image

最后出来的结果就是一些QC的结果，以及可以通过点击export来导出几种文件

包括gene level, probeset level segment level的文件。也可以导出igv能够识别的格式，放进igv中进行查看。

第二步：去除假阳性位点

假阳性位点原本使用nexus软件直接筛选，但是这个软件已经下架了，可选的方法只有将导出文件导入IGV软件进行可视化，然后筛选位点（这一步应该只能筛选片段，不能筛选位点），或者是用R语言处理。

本次实验最终采用了R语言处理的方法。把23个白细胞样本的probeset level文件取出。因为探针水平的log2ratio变化比较大，因此我们选择将探针map到segment level的文件中，取segment level的log2ratio为每个探针的log2ratio。然后将在超过半数（>=12）例中|log2ratio| > 0.1的位点（阈值取0.1是因为师兄发现0.1和nexus中的参数能对上）认为是germline的变异，属于假阳性，在肿瘤样本的位点中应被去除。

去除假阳性位点之后，可以将文件导出，作为ascat的输入文件。

ascat教程 https://github.com/VanLoo-lab/ascat

假阳性segment筛选：segment

第三步：使用ASCAT包推断肿瘤纯度、倍性和等位基因特异性拷贝数谱 ASCAT_2.5.2

输入文件为chas输出的原始探针file，上一步进行了假阳性位点的筛选，这一步直接导入ascat，按照ASCAT推荐文档的格式处理好

https://github.com/VanLoo-lab/ascat/tree/master/ExampleData

ascat.loadData("Tumor_LogR.txt","Tumor_BAF.txt")

同时进行阳性ascat探针的筛选，同时导入肿瘤和白细胞的数据，筛选阴性segment，在肿瘤的ascat结果中去除假阳性，方法为，将假阳性片段（假阳性片段要提前经过筛选，23个样本中，相似片段要在超过12个样本中出现才算假阳性）前后扩大一半，如果肿瘤的segment落在这个扩大的假阳性片段内，则认为是假阳性。

Ascat文件输出后，需要计算片段的拷贝数以及片段内包含的探针数，计算过后将片段文件和探针文件输入GISTIC2进行最后一步计算。

第四步：GISTIC 2.0

在linux系统中安装软件，或者直接使用在线软件分析
https://cloud.genepattern.org/gp/pages/index.jsf?lsid=urn:lsid:broad.mit.edu:cancer.software.genepattern.module.analysis:00125:6.15.28