【ChIP-seq 实战】三、得到fastq格式测试数据
2022-08-09 本文已影响0人
佳奥
这里是佳奥!
我们开始转化下载的sra数据。
##回到网页下载Metdata数据
https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP009883&o=acc_s%3Aa
##新建文件
touch sra.table
把内容用vim编辑复制过去
##查看数据,把,间隔改为行间隔(如果是空格则是'\t'),查看
$ head -1 sra.table | tr ',' '\n' | cat -n
1 Run
2 Assay Type
3 AvgSpotLen
4 Bases
5 beads
6 BioProject
7 BioSample
8 Bytes
9 Cell_Line
10 Center Name
11 chip_antibody
12 chromatin
13 Consent
14 DATASTORE filetype
15 DATASTORE provider
16 DATASTORE region
17 Experiment
18 GEO_Accession (exp)
19 Instrument
20 Library Name
21 LibraryLayout
22 LibrarySelection
23 LibrarySource
24 modification
25 Organism
26 Platform
27 ReleaseDate
28 Sample Name
29 source_name
30 SRA Study
31 chip_antibody_manufacturer
32 instrument_model (run)
##需要提取内容,制作配置文件
$ cut -f 4,7 sra.table |cut -d":" -f 2 | cut -d ' ' -f 2-3 | tr ' ' '_'
Type,AvgSpotLen,Bases,beads,BioProject,BioSample,Bytes,Cell_Line,Center_Name,chip_antibody,chromatin,Consent,DATASTORE
RNAPII_S5P
RNAPII_S5P
RNAPII_S2P
RNAPII_S7P
RNAPII_8WG16
RNAPII_8WG16
RNAPII_S2P
RNAPII_S2P
RNAPII_S7P
H2Aub1_ChIPSeq,SINGLE,ChIP,GENOMIC,H2Aub1,Mus
H2Aub1_ChIPSeq,SINGLE,ChIP,GENOMIC,H2Aub1,Mus
H3K36me3_ChIPSeq,SINGLE,ChIP,GENOMIC,H3K36me3,Mus
H3K36me3_ChIPSeq,SINGLE,ChIP,GENOMIC,H3K36me3,Mus
Control_MockIP,SINGLE,ChIP,GENOMIC,Control,Mus
Control_MockIP,SINGLE,ChIP,GENOMIC,Control,Mus
Ring1B_ChIPSeq,SINGLE,ChIP,GENOMIC,none,Mus
Ring1B_ChIPSeq,SINGLE,ChIP,GENOMIC,none,Mus
Ring1B_ChIPSeq,SINGLE,ChIP,GENOMIC,none,Mus
RNAPII_S5PRepeat
##艰难,然后把第一列内容复制出来,与SRR序号对应,就像这样(中间Tab隔开),有余力可以使用perl语言(jimmy总结到,可以直接用Excel做)
##保存到config文件
$ cat config
RNAPII_S5P_1 SRR391032
RNAPII_S5P_2 SRR391033
RNAPII_S2P_1 SRR391034
RNAPII_S7P_1 SRR391035
RNAPII_8WG16_1 SRR391036
RNAPII_8WG16_2 SRR391037
RNAPII_S2P_2 SRR391038
RNAPII_S2P_3 SRR391039
RNAPII_S7P_2 SRR391040
H2Aub1_1 SRR391041
H2Aub1_2 SRR391042
H3K36me3_1 SRR391043
H3K36me3_2 SRR391044
Control_1 SRR391045
Control_2 SRR391046
Ring1B_1 SRR391047
Ring1B_2 SRR391048
Ring1B_3 SRR391049
RNAPII_S5PRepeat_1 SRR391050
##有了上面的配置文件就可以批量sra转fq文件。使用fastq-dump(已经提前将程序添加到环境变量,已切换chipseq环境变量)
##进入到上层目录
(chipseq) root 16:09:57 /home/kaoku/chipseq/mouse_project
$ ls
align clean config motif peaks qc raw sra
##单端测序数据批量sra转fasq
analysis_dir=raw
cat config | while read id;
do
echo $id
arr=($id)
srr=${arr[1]}
sample=${arr[0]}
fastq-dump -A $sample -O $analysis_dir --gzip --split-3 sra/$srr.sra &
done
QQ截图20220809161147.png
top查看进程,正在运行。
fast-dump进程结束后查看文件,转化完成。
(chipseq) root 16:18:58 /home/kaoku/chipseq/mouse_project/raw
$ ls -lh
总用量 11G
-rw-r--r-- 1 root root 427M 8月 9 16:14 Control_1.fastq.gz
-rw-r--r-- 1 root root 527M 8月 9 16:15 Control_2.fastq.gz
-rw-r--r-- 1 root root 507M 8月 9 16:16 H2Aub1_1.fastq.gz
-rw-r--r-- 1 root root 843M 8月 9 16:17 H2Aub1_2.fastq.gz
-rw-r--r-- 1 root root 881M 8月 9 16:18 H3K36me3_1.fastq.gz
-rw-r--r-- 1 root root 839M 8月 9 16:17 H3K36me3_2.fastq.gz
-rw-r--r-- 1 root root 266M 8月 9 16:13 Ring1B_1.fastq.gz
-rw-r--r-- 1 root root 274M 8月 9 16:13 Ring1B_2.fastq.gz
-rw-r--r-- 1 root root 875M 8月 9 16:18 Ring1B_3.fastq.gz
-rw-r--r-- 1 root root 506M 8月 9 16:15 RNAPII_8WG16_1.fastq.gz
-rw-r--r-- 1 root root 794M 8月 9 16:18 RNAPII_8WG16_2.fastq.gz
-rw-r--r-- 1 root root 858M 8月 9 16:18 RNAPII_S2P_1.fastq.gz
-rw-r--r-- 1 root root 326M 8月 9 16:13 RNAPII_S2P_2.fastq.gz
-rw-r--r-- 1 root root 489M 8月 9 16:15 RNAPII_S2P_3.fastq.gz
-rw-r--r-- 1 root root 740M 8月 9 16:17 RNAPII_S5P_1.fastq.gz
-rw-r--r-- 1 root root 745M 8月 9 16:17 RNAPII_S5P_2.fastq.gz
-rw-r--r-- 1 root root 283M 8月 9 16:13 RNAPII_S5PRepeat_1.fastq.gz
-rw-r--r-- 1 root root 533M 8月 9 16:15 RNAPII_S7P_1.fastq.gz
-rw-r--r-- 1 root root 393M 8月 9 16:14 RNAPII_S7P_2.fastq.gz
下一步就是质量控制,我们下一篇再见!