走进转录组表观遗传

【表观调控(RNA-Seq和ChIP-Seq联合分析) 实战】一

2022-08-22  本文已影响0人  佳奥

这里是佳奥!我们开始新篇章的学习吧!

本次复现的文章:

##Global changes of H3K27me3 domains and Polycomb group protein distribution in the absence of recruiters Spps or Pho
https://pubmed.ncbi.nlm.nih.gov/29432187/

代码参考:

https://mp.weixin.qq.com/s/42KnyHNJ8CwY6ID1P2suaw

1 果蝇参考基因组和注释文件准备

1.1 参考基因组网站

https://asia.ensembl.org/Drosophila_melanogaster/Info/Index

##ftp下载,原文是6.22但是ftp页面打不开,这里就使用更新的6.32
http://ftp.ensembl.org/pub/release-107/fasta/drosophila_melanogaster/dna/

##浏览器下载toplevel.fa.gz 或者wget
http://ftp.ensembl.org/pub/release-107/fasta/drosophila_melanogaster/dna/Drosophila_melanogaster.BDGP6.32.dna_sm.toplevel.fa.gz

1.2 gtf注释文件

##gtf目录
http://ftp.ensembl.org/pub/release-107/gtf/drosophila_melanogaster/

##浏览器下载chr.gtf.gz 或者wget
http://ftp.ensembl.org/pub/release-107/gtf/drosophila_melanogaster/Drosophila_melanogaster.BDGP6.32.107.chr.gtf.gz

1.3 RNA-Seq需要的hisat2的索引文件

可以根据参考基因组构建,但是推荐下载构建好的索引。

http://daehwankimlab.github.io/hisat2/download/#h-sapiens
QQ截图20220822104616.png
##浏览器下载bdgp6.tar.gz 或者wget
https://genome-idx.s3.amazonaws.com/hisat/bdgp6.tar.gz
(rnaseq) root 10:41:02 /home/kaoku/project/fly/refer
$ ls -lh
总用量 252M
-rw-r--r-- 1 kaoku kaoku 203M  8月 22 11:01 bdgp6.tar.gz
-rw-r--r-- 1 kaoku kaoku 6.5M  8月 22 10:40 Drosophila_melanogaster.BDGP6.32.107.chr.gtf.gz
-rw-r--r-- 1 kaoku kaoku  43M  8月 22 10:29 Drosophila_melanogaster.BDGP6.32.dna_sm.toplevel.fa.gz

解压下载的索引文件

$ tar -zxvf bdgp6.tar.gz

##改名好辩认
$ mv bdgp6 hisat2-index

1.4 bowtie2的索引文件

同理:

##浏览器下载或者wget
http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml
##解压压缩包
$ unzip bowtie2indexBDGP6.zip

##并改名
$ mv BDGP6 bowtie2-index

前期准备至此结束,下一步便是下载实验数据。

(rnaseq) root 11:11:49 /home/kaoku/project/fly/refer
$ ls -lh
总用量 50M
drwxr-xr-x 2 root  root  4.0K  6月 12  2020 bowtie2-index
-rw-r--r-- 1 kaoku kaoku 6.5M  8月 22 10:40 Drosophila_melanogaster.BDGP6.32.107.chr.gtf.gz
-rw-r--r-- 1 kaoku kaoku  43M  8月 22 10:29 Drosophila_melanogaster.BDGP6.32.dna_sm.toplevel.fa.gz
drwxr-sr-x 2  1041  1008 4.0K  3月 17  2016 hisat2-index

2 文献测序原始数据下载

2.1 配置sratoolkit

先把文件夹添加到环境变量

$ export PATH="$PATH:/home/kaoku/biosoft/sratoolkit/sratoolkit.3.0.0-ubuntu64/bin"

配置软件:这个界面是可以鼠标点击的,设置路径到root/ncbi即可
$ vdb-config --interactive
QQ截图20220822113405.png

红色字母就是选择,多试一下就会使用了。

2.2 找到文章的GSE序号

QQ截图20220822113736.png

点击蓝色的GSE便可跳转到GEO数据库。

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE102339

网页往下翻,找到SRA序号。


QQ截图20220822113955.png

点击send result to run selector

https://www.ncbi.nlm.nih.gov/Traces/study/?query_key=1&WebEnv=MCID_6302faaf5c311c6a7328f00f&o=acc_s%3Aa&s=SRR5907429,SRR5907430,SRR5907431,SRR5907432,SRR5907433,SRR5907434,SRR5907436,SRR5907437,SRR5907438,SRR5907439,SRR5907440,SRR5907441,SRR5907442,SRR5907443,SRR5907444,SRR5907445,SRR5907446,SRR5907447,SRR5907448,SRR5907449,SRR5907450,SRR5907451,SRR5907452,SRR5907453,SRR5907454,SRR5907455,SRR5907456,SRR5907457,SRR5907458,SRR5907459,SRR5907460,SRR5907461,SRR5907462,SRR5907463,SRR5907464,SRR5907465,SRR5907466,SRR5907467,SRR5907468,SRR5907469,SRR5907470,SRR5907471,SRR5907472,SRR5907473,SRR5907474,SRR5907475,SRR5907476,SRR5907477,SRR5907478,SRR6490544,SRR9967697,SRR9967698
QQ截图20220822114215.png

可以看到数据规模还是挺大的,117G的原始数据。

点击Metadata、Accession List下载。

2.3 sra文件下载及转fastq

##批量下载代码
cat SRR_Acc_List.txt | while read id; do ( prefetch $id & ); done

需要判断文库的测序文件是单端测序还是双端测序。在LibraryLayout:PAIRED即为双端。

##明确目录,原始sra数据以及转化后的fastq数据目录

sra目录:sra_data
fastq目录:raw_fq

##sra转fastq
for id in ~/sra_data
do
fastq-dump --gzip --split-3 -O ~/raw_fq $id &
done

SRR8980083_1.fastq.gz是一个双端测序文件,经过fastq-dump转换后形成两个文件,分别为:
SRR8980083_1.fastq.gz
SRR8980083_2.fastq.gz

下一篇我们继续演示ChIP-Seq的比对流程。

我们下一篇再见!

上一篇 下一篇

猜你喜欢

热点阅读