ceRNA

Rattus norvegicus基因表达探针lncRNA重注释

2019-04-28  本文已影响18人  dming1024

往日都是对Mus 基因表达探针进行重注释,今日遇到了对大鼠表达探针进行重注释,但是在往日的分析中很少遇到Rattus基因组,更谈不上它的基因组注释信息了,终于在多番的搜索之下,还是发现了抑制被我忽略的重要信息。

  1. Rattus的基因组早就有了,在2014年就被发布了;
  2. Rattus基因组bowtie2索引也有的,就再mm10,hg19的下边,喏最后一个就是;
    (链接:http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml
    索引图片
    3.那么就差注释gtf文件了,之前我一直就在GENCODE网站上去下载,但是那里只有Human和Mus两个物种,所以我又找到了数据库宝藏,之前一直都不知道,定睛一看是ensemble下的...
    这个是数据链接:http://ftp.ensembl.org/pub/
    ensemble

有了注释文件和基因组信息,下面就开始对Rattus的探针进行重注释了:
1.基因组索引

ref=/home/reference/rn4_index

2.bowtie2比对

bowtie2 -x $ref -f HG-U133_Plus_2.probe_fasta -S hgu133plus2.sam 
#将.sam转化为.bam
samtools view -b -S hgu133plus2.sam > hgu133plus2.bam
  1. bedtools提取比对结果
#将.bam转换为.bed
bamToBed -i hgu133plus2.bam > hgu133plus2.bed

#根据染色体位置信息取交集,并写入hgu133plus2.txt文件
intersectBed -a hgu133plus2.bed -b gencode.v29.long_noncoding_RNAs.gtf -wa -wb >hgu133plus2.txt

#提取注释的lncRNA信息
cat hgu133plus2.txt|awk '{if($9 ~ "gene")print $4, $20}' > probe_lncrna.txt

以上就完成了一个表达芯片的探针重注释

上一篇 下一篇

猜你喜欢

热点阅读