遗传调控转录组

第4周:大规模鉴定phasiRNA的方法

2019-02-17  本文已影响118人  TOP生物信息

原文来源:Yang K, Wen X, Sablok G. Method for the Large-Scale Identification of phasiRNAs in Brachypodium distachyon[M]//Brachypodium Genomics. Humana Press, New York, NY, 2018: 187-194.

Abstract

摘要简单说了四个方面的内容,第四点是全文的重点。

Key words

PHAS, phasiRNA, Hyper geometric distribution, Phasing score, Bioinformatics

1. Introduction

第一段

第二段

2. Materials

  1. 小RNA序列的fasta文件
>SRR_1_x77275
TCGGACCAGGCTTCATTCCCC
  1. 参考基因组或转录组的fasta文件
  2. Perl, R, bowtie, and bowtie-build

3. Methods

3.1 建立参考基因组索引
bowtie-build genome.fa genome.fa
3.2 将小RNA序列比对到参考基因组

比对到基因组的小RNA的5'末端的坐标作为起始位置。考虑到小RNA双链体的3'末端有2-nt的突出,当小RNA比对到反义链时,需要额外加上2-nt的正偏移再来确定小RNA的起始位置。
大多数情况下,序列简单、比对到重复区域的那些reads应该被舍弃,以减少背景噪音。

bowtie -f -m 6 -v 0 -a -p 4 genome.fa smallRNA.fa smallRNA.bwt

这里补充一篇bowtie用法详解的帖子,https://blog.csdn.net/soyabean555999/article/details/62236341

3.3 Extracting Small RNA Hotspots from Genome

该方法使用滑动窗口沿基因组滑动的方法来确定以特定相位模式产生小RNA的基因组区间。
一个关键点是确定多远的距离来区分:两个小RNA reads的5'坐标是属于一个hotspots还是属于两个不同的hotspots。

这里的Hotspots应该就是常说的cluster,简单理解为基因组上能产生很多小RNA的小片段。

3.4 Identifying Positive Sliding Windows
3.4.1

以鉴定产生21-nt phasiRNA的区间为例。
将窗口设置为189-nt,移动步长为1;以小RNA 5'的坐标为其位置。

在移动窗口的过程中,当窗口左端与某一小RNA reads 5'的坐标重合时,选取该窗口为待分析窗口。将窗口内基因组的每一个位置编号,按基因组位置坐标除以21的余数,即1-21依次循环编号。如图所示。

小RNA reads比对定位之后,其位置如果具有相同的bin编号,则可以说明,这些小RNA reads是通过相同的相位模式形成的。

3.4.2 Filtering windows showing low possibility to generate small RNA in 21-nt manner

对于每一个窗口,采用以下指标过滤:

这里的“register 1st”理解为第一种bin编号,不一定就是1。

3.4.3 Filtering windows with high P-value:
3.5 Calculating Phasing Score
3.5.1 Merging positive sliding windows whose PHAS register 1st are the same as PHAS candidates

如果窗口的第一种bin编号相同则将窗口分为一组,再按窗口起始坐标排序,相邻的窗口若有重叠则合并。

3.5.2 Filtering PHAS candidates with highest phasing score

对于每一个候选的PHAS位点,按照以下指标过滤:

3.6 Extracting and Quantifying phasiRNAs from Identified PHAS

根据PHAS loci(起始和终止位置)和相位模式(phasiRNA长度为21;每个phasiRNA左端位置对应的bin编号已知)还能够提取出phasiRNA序列。

如图,
63,642,240-63,642,260
63,642,261-63,642,281
63,642,282-63,642,302
......
就是对应的phasiRNA序列。

上一篇 下一篇

猜你喜欢

热点阅读