生信点点滴滴

ceRNA网络构建

2019-05-26  本文已影响46人  dming1024

知识点:
a:快速使用shell脚本合并文件
b:sed中变量的使用格式(‘ “ ” ’)
c:ceRNA网络的构建

1. lncRNA靶基因(miRNA)的预测

利用starBase数据库,将lncRNA的gene symbol录入系统,然后查询lncRNA靶基因,点击download下载;(几十个lncRNA都是这样一个个获得的靶基因,这个数据库中的lncRNA-miRNA数据,目前还不知道怎么全部下载)


2.合并获得的lncRNA靶基因

之前介绍过使用R语言脚本进行处理,现在可以直接使用shell语言脚本进行处理:新建一个文件夹,将所有的.excel文件放入该文件夹

tree lncrna-mirna
lncrna-mirna
├── merge_target.csv
├── merge_target.txt
├── merge.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_BBOX1-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_C5orf56.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_GAS6-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_KCNK15-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_PAX8-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_SLFNL1-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_TRAF3IP2-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_TTN-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_ZFAS1.xls
└── starBaseV3_hg19_CLIP-seq_miRNA-target_all_ZNF571-AS1.xls

合并多个文件

cat *.xls > merge.xls

筛选lncRNA的靶基因,存入merge_target.txt

cat merge.xls | sed -n '/^#/!p'|cut -f2,4|sed -n '/hsa/p' > merge_target.txt

cat merge_target.txt|less -SN
      1 hsa-miR-3940-3p BBOX1-AS1
      2 hsa-miR-361-3p  BBOX1-AS1
      3 hsa-miR-873-3p  C5orf56
      4 hsa-miR-653-5p  C5orf56
      5 hsa-miR-19a-3p  C5orf56
      6 hsa-miR-19b-3p  C5orf56
      7 hsa-miR-6799-3p GAS6-AS1
      8 hsa-miR-6893-3p GAS6-AS1
      9 hsa-miR-370-3p  GAS6-AS1
     10 hsa-miR-3173-5p GAS6-AS1
     11 hsa-miR-1296-5p GAS6-AS1
     12 hsa-miR-4677-3p GAS6-AS1
     13 hsa-miR-766-5p  GAS6-AS1

3. 对miRNA靶基因进行预测,采用targetscan

targetscan中的数据库可以通过下载得到 miRNA靶基因数据库

这样我们就得到了数据库中的所有信息在:Predicted_Targets_Info.default_predictions.txt,建立一个mirna_target文件夹,包含待预测靶基因的所有miRNAs文档,此处命名为mir.txt,以及待会筛选得到的各miRNA target文档

cat mir.txt
miR-335-5p
miR-483-3p
miR-150-5p
miR-96-5p
miR-335-5p
miR-342-3p
miR-17-5p
miR-20a-5p
miR-106b-5p
miR-455-3p
miR-183-5p
miR-483-3p
miR-3619-5p
miR-3196
miR-155-5p
miR-155-5p
miR-155-5p
miR-135b-5p
miR-135a-5p
miR-96-5p
miR-7-5p
miR-150-5p

由Predicted_Targets_Info.default_predictions.txt库中,筛选mir.txt文档中所有miRNA的靶基因,如果要在sed 命令中添加变量,需要用一对单引号(‘ ’),再加一对双引号(“ ”)

cat mirna_target/mir.txt |while read id;do cat Predicted_Targets_Info.default_predictions.txt | sed -n '/'"$id"'/p'|cut -f1,3|uniq -d > mirna_target/${id}.txt; done; 

最后个miRNA靶基因预测的结果如下

 tree
.
├── miR-106b-5p.txt
├── miR-135a-5p.txt
├── miR-135b-5p.txt
├── miR-150-5p.txt
├── miR-155-5p.txt
├── miR-17-5p.txt
├── miR-183-5p.txt
├── miR-20a-5p.txt
├── miR-3196.txt
├── miR-335-5p.txt
├── miR-342-3p.txt
├── miR-3619-5p.txt
├── miR-455-3p.txt
├── miR-483-3p.txt
├── miR-7-5p.txt
├── miR-96-5p.txt
└── mir.txt

有些文档可能是空文件,主要原因是mirna_target文档中miRNA命名与数据库不一致,所以没有匹配到合适的靶基因,这些就只能自己去一个个核对了orz

4. Cytoscape可视化

这个步骤比较简单,把lncRNA-miRNA,miRNA-RNA放在一个excel中,导入到cystoscape即可,网上一大把教程,这里就不赘述了,有需要的可以联系我


上一篇下一篇

猜你喜欢

热点阅读