ceRNA网络构建
2019-05-26 本文已影响46人
dming1024
知识点:
a:快速使用shell脚本合并文件
b:sed中变量的使用格式(‘ “ ” ’)
c:ceRNA网络的构建
1. lncRNA靶基因(miRNA)的预测
利用starBase数据库,将lncRNA的gene symbol录入系统,然后查询lncRNA靶基因,点击download下载;(几十个lncRNA都是这样一个个获得的靶基因,这个数据库中的lncRNA-miRNA数据,目前还不知道怎么全部下载)
2.合并获得的lncRNA靶基因
之前介绍过使用R语言脚本进行处理,现在可以直接使用shell语言脚本进行处理:新建一个文件夹,将所有的.excel文件放入该文件夹
tree lncrna-mirna
lncrna-mirna
├── merge_target.csv
├── merge_target.txt
├── merge.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_BBOX1-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_C5orf56.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_GAS6-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_KCNK15-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_PAX8-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_SLFNL1-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_TRAF3IP2-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_TTN-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_ZFAS1.xls
└── starBaseV3_hg19_CLIP-seq_miRNA-target_all_ZNF571-AS1.xls
合并多个文件
cat *.xls > merge.xls
筛选lncRNA的靶基因,存入merge_target.txt
cat merge.xls | sed -n '/^#/!p'|cut -f2,4|sed -n '/hsa/p' > merge_target.txt
cat merge_target.txt|less -SN
1 hsa-miR-3940-3p BBOX1-AS1
2 hsa-miR-361-3p BBOX1-AS1
3 hsa-miR-873-3p C5orf56
4 hsa-miR-653-5p C5orf56
5 hsa-miR-19a-3p C5orf56
6 hsa-miR-19b-3p C5orf56
7 hsa-miR-6799-3p GAS6-AS1
8 hsa-miR-6893-3p GAS6-AS1
9 hsa-miR-370-3p GAS6-AS1
10 hsa-miR-3173-5p GAS6-AS1
11 hsa-miR-1296-5p GAS6-AS1
12 hsa-miR-4677-3p GAS6-AS1
13 hsa-miR-766-5p GAS6-AS1
3. 对miRNA靶基因进行预测,采用targetscan
targetscan中的数据库可以通过下载得到 miRNA靶基因数据库这样我们就得到了数据库中的所有信息在:Predicted_Targets_Info.default_predictions.txt,建立一个mirna_target文件夹,包含待预测靶基因的所有miRNAs文档,此处命名为mir.txt,以及待会筛选得到的各miRNA target文档
cat mir.txt
miR-335-5p
miR-483-3p
miR-150-5p
miR-96-5p
miR-335-5p
miR-342-3p
miR-17-5p
miR-20a-5p
miR-106b-5p
miR-455-3p
miR-183-5p
miR-483-3p
miR-3619-5p
miR-3196
miR-155-5p
miR-155-5p
miR-155-5p
miR-135b-5p
miR-135a-5p
miR-96-5p
miR-7-5p
miR-150-5p
由Predicted_Targets_Info.default_predictions.txt库中,筛选mir.txt文档中所有miRNA的靶基因,如果要在sed 命令中添加变量,需要用一对单引号(‘ ’),再加一对双引号(“ ”)
cat mirna_target/mir.txt |while read id;do cat Predicted_Targets_Info.default_predictions.txt | sed -n '/'"$id"'/p'|cut -f1,3|uniq -d > mirna_target/${id}.txt; done;
最后个miRNA靶基因预测的结果如下
tree
.
├── miR-106b-5p.txt
├── miR-135a-5p.txt
├── miR-135b-5p.txt
├── miR-150-5p.txt
├── miR-155-5p.txt
├── miR-17-5p.txt
├── miR-183-5p.txt
├── miR-20a-5p.txt
├── miR-3196.txt
├── miR-335-5p.txt
├── miR-342-3p.txt
├── miR-3619-5p.txt
├── miR-455-3p.txt
├── miR-483-3p.txt
├── miR-7-5p.txt
├── miR-96-5p.txt
└── mir.txt
有些文档可能是空文件,主要原因是mirna_target文档中miRNA命名与数据库不一致,所以没有匹配到合适的靶基因,这些就只能自己去一个个核对了orz
4. Cytoscape可视化
这个步骤比较简单,把lncRNA-miRNA,miRNA-RNA放在一个excel中,导入到cystoscape即可,网上一大把教程,这里就不赘述了,有需要的可以联系我