学习——测序数据整理工作

2017-06-04  本文已影响0人  union0402

数据内容:在肿瘤测序数据中,发现血系变异与体细胞变异的叠加

数据来源:TCGA

数据理解:

①TCGA数据产生过程:

②主要数据的分析:

数据操作规则(均只对一条数据的描述):数据描述为XXY-XXY-XXXX-XX(目前我们只看前六位数据)(0——肿瘤,1——正常,10——血液,11——癌旁组织)

(1)前三位数的选择

①两列的tissue中第一位数据必须有0开头和1开头的数据,表示既有肿瘤基因数据又有正常基因组数据

②若前两列第一,二位数据中有01,10,那么则有第三列数据的第一,二位的数据为11

③第三位首选A

(2)后三位数的选择(前提是两组数据的前三位数字相同)

①优先选择01D的数据,若出现01W的数据的var_count数据的值大于3,则选择01W的数据

(3)特殊情况

①前三位为01B和02A出现时,谁的VCF不为0则选择谁,若VCF均为0则选择01B

数据操作方法(个人的方法):

①对整组数据进行筛选,将第一列tissue的值是10-,11-开头的全部挑出来,看他们对应的第二列数据是否为0开头的数据,若不是则全部清空;整理后剩下的数据的第一列tissue都是0开头的

②对第二列tissue进行整理:将0开头的数据筛选出,进行整理

小tips:如何对筛选出来的数据进行处理需要注意,因为单纯的对筛选后的数据进行成组复制粘贴会覆盖隐藏部分的数据,因此需要在excel中进行宏操作,具体操作步骤:http://jingyan.baidu.com/article/295430f12b4aef0c7e00501b.html

宏代码:

Sub 多区域复制粘贴()

On Error Resume Next

Dim SRange() As Range, UPRange As Range, TRange As Range

Dim i As Long, AreaNum As Long

Dim MinR As Long, MinC As Long

AreaNum = Selection.Areas.Count

ReDim SRange(1 To AreaNum)

MinR = ActiveSheet.Rows.Count

MinC = ActiveSheet.Columns.Count

For i = 1 To AreaNum

Set SRange(i) = Selection.Areas(i)

If SRange(i).Row < MinR Then MinR = SRange(i).Row

If SRange(i).Column < MinC Then MinC = SRange(i).Column

Next i

Set UPRange = Cells(SRange(1).Row, SRange(1).Column)

Set TRange = Application.InputBox(prompt:="选择粘贴区域的最左上角单元格", Title:="多区域复制粘贴", Type:=8)

Application.ScreenUpdating = False

For i = 1 To AreaNum

SRange(i).Copy

TRange.Offset(SRange(i).Row - MinR, SRange(i).Column - MinC).PasteSpecial paste:=xlPasteValues

Next i

Application.ScreenUpdating = True

End Sub

上一篇 下一篇

猜你喜欢

热点阅读