ceRNA网络构建

2019-05-26 本文已影响46人 dming1024

知识点：
a：快速使用shell脚本合并文件
b：sed中变量的使用格式（‘ “ ” ’）
c：ceRNA网络的构建

1. lncRNA靶基因（miRNA）的预测

利用starBase数据库，将lncRNA的gene symbol录入系统，然后查询lncRNA靶基因，点击download下载；（几十个lncRNA都是这样一个个获得的靶基因，这个数据库中的lncRNA-miRNA数据，目前还不知道怎么全部下载）

2.合并获得的lncRNA靶基因

之前介绍过使用R语言脚本进行处理，现在可以直接使用shell语言脚本进行处理：新建一个文件夹，将所有的.excel文件放入该文件夹

tree lncrna-mirna
lncrna-mirna
├── merge_target.csv
├── merge_target.txt
├── merge.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_BBOX1-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_C5orf56.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_GAS6-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_KCNK15-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_PAX8-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_SLFNL1-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_TRAF3IP2-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_TTN-AS1.xls
├── starBaseV3_hg19_CLIP-seq_miRNA-target_all_ZFAS1.xls
└── starBaseV3_hg19_CLIP-seq_miRNA-target_all_ZNF571-AS1.xls

合并多个文件

cat *.xls > merge.xls

筛选lncRNA的靶基因，存入merge_target.txt

cat merge.xls | sed -n '/^#/!p'|cut -f2,4|sed -n '/hsa/p' > merge_target.txt

cat merge_target.txt|less -SN
      1 hsa-miR-3940-3p BBOX1-AS1
      2 hsa-miR-361-3p  BBOX1-AS1
      3 hsa-miR-873-3p  C5orf56
      4 hsa-miR-653-5p  C5orf56
      5 hsa-miR-19a-3p  C5orf56
      6 hsa-miR-19b-3p  C5orf56
      7 hsa-miR-6799-3p GAS6-AS1
      8 hsa-miR-6893-3p GAS6-AS1
      9 hsa-miR-370-3p  GAS6-AS1
     10 hsa-miR-3173-5p GAS6-AS1
     11 hsa-miR-1296-5p GAS6-AS1
     12 hsa-miR-4677-3p GAS6-AS1
     13 hsa-miR-766-5p  GAS6-AS1

3. 对miRNA靶基因进行预测，采用targetscan

targetscan中的数据库可以通过下载得到

miRNA靶基因数据库

这样我们就得到了数据库中的所有信息在：Predicted_Targets_Info.default_predictions.txt，建立一个mirna_target文件夹，包含待预测靶基因的所有miRNAs文档，此处命名为mir.txt，以及待会筛选得到的各miRNA target文档

cat mir.txt
miR-335-5p
miR-483-3p
miR-150-5p
miR-96-5p
miR-335-5p
miR-342-3p
miR-17-5p
miR-20a-5p
miR-106b-5p
miR-455-3p
miR-183-5p
miR-483-3p
miR-3619-5p
miR-3196
miR-155-5p
miR-155-5p
miR-155-5p
miR-135b-5p
miR-135a-5p
miR-96-5p
miR-7-5p
miR-150-5p

由Predicted_Targets_Info.default_predictions.txt库中，筛选mir.txt文档中所有miRNA的靶基因，如果要在sed 命令中添加变量，需要用一对单引号（‘ ’），再加一对双引号（“ ”）

cat mirna_target/mir.txt |while read id;do cat Predicted_Targets_Info.default_predictions.txt | sed -n '/'"$id"'/p'|cut -f1,3|uniq -d > mirna_target/${id}.txt; done;

最后个miRNA靶基因预测的结果如下

 tree
.
├── miR-106b-5p.txt
├── miR-135a-5p.txt
├── miR-135b-5p.txt
├── miR-150-5p.txt
├── miR-155-5p.txt
├── miR-17-5p.txt
├── miR-183-5p.txt
├── miR-20a-5p.txt
├── miR-3196.txt
├── miR-335-5p.txt
├── miR-342-3p.txt
├── miR-3619-5p.txt
├── miR-455-3p.txt
├── miR-483-3p.txt
├── miR-7-5p.txt
├── miR-96-5p.txt
└── mir.txt

有些文档可能是空文件，主要原因是mirna_target文档中miRNA命名与数据库不一致，所以没有匹配到合适的靶基因，这些就只能自己去一个个核对了orz

4. Cytoscape可视化

这个步骤比较简单，把lncRNA-miRNA，miRNA-RNA放在一个excel中，导入到cystoscape即可，网上一大把教程，这里就不赘述了，有需要的可以联系我

ceRNA网络构建

1. lncRNA靶基因（miRNA）的预测

2.合并获得的lncRNA靶基因

3. 对miRNA靶基因进行预测，采用targetscan

4. Cytoscape可视化

猜你喜欢

热点阅读