10.17 IGV可视化 snpEFF注释 解压缩命令
一、IGV可视化
查看bam文件:samtools view -h in.bam 可以加限制看具体位置
第一,把你想查看的那部分区域用samtools view提取出来,生成一份小一些的BAM,然后下载下来,在导入到IGV中。
$ samtools view -h in.bam chr22:16050103-16050203 | samtools view -Sb - > small.bam
但是我的文件不大,直接scp下来。
安装IGV需要先安装java。
IGV使用:https://www.jianshu.com/p/e5338858dd82(还介绍了如何自己构建参考基因组)
其实文件挺大的选择参考基因组,这里直接使用NC_000913
file loadfile加载bam文件,需要sort过,并且有索引
加载时间过长,可以出高端图用。
还可以igvtools将bam文件转换为tdf文件:https://www.jianshu.com/p/c0635eb9ac24
但是tdf文件只能反映基因组每个区域的测序深度,无法看到具体的比对情况,适合用来check找到的peak或者CNV。
第二,不下载,直接在终端用samtools tview进行查看。samtools tview有类似于IGV的功能,虽然体验会稍差一些。
samtools tview --reference ./ref2/E.coli_K12_MG1655.fa ./out/bamout/SRR1770413.sorted.markdup.bam
(效果确实很不好,注意reference前--,参考基因组和bam文件都要有索引)
在该模式下,按下键盘‘g’后,会跳出一个Goto框,在里面输入想要调整过去的位置.
https://www.jianshu.com/p/364e640d3c9f
二、参考基因组数据的查找和注释文件查找
参考基因组:Genome Browser
https://link.jianshu.com/?t=http://genome.ucsc.edu/index.html
downloads -> genome data 里面都是动物的基因组,sad
注释文档:gtf gff文件
GFF全称为general feature format,这种格式主要是用来注释基因组。
GTF全称为gene transfer format,主要是用来对基因进行注释。
https://www.gencodegenes.org/
https://www.jianshu.com/p/1b9426d0f9f4
https://www.jianshu.com/p/3e545b9a3c68
上两篇:讲解人的基因组数据下载和文件解压合并。与导入IGV
三、snpEFF注释
http://snpeff.sourceforge.net/SnpEff_manual.html#databases
1.下载zip
2.scp到服务器
3.home dir :unzip snpEff_latest_core.zip
在mac上进行,p到服务器上:
服务器没网,在mac上查看,需要JDK才可以使用java命令行
4.查看有哪些database:java -jar snpEff.jar databases
mac上成功下载5.java -jar ./snpEff/snpEff.jar download Escherichia_coli_mgh_57
下载失败了,没connect上
6.下载成功之后,在软件安装目录的data文件夹下,会有一个以数据库名字命名的文件夹,里面就是下载好的所有文件
https://www.jianshu.com/p/ad1ab3d7fcd0
自己制作database:
http://blog.csdn.net/msw521sg/article/details/77103620
1.首先下载参考基因组和注释文件
2.在snpEff目录下创建data文件
3.在data中创建E.coli 和genomes两个文件
4.将gff文件放到E.coli中,genomes中放入fa文件(fna要改为fa)
5.在snpEff目录下的snpEff.config 中最后:
输入的内容6.snpEff目录下执行:
java -jar snpEff.jar build -gff3 -v E.coli
7.vcf文件移到data目录下后
java -jar snpEff.jar E.coli data/SRR1770413.HC.vcf >SRR1770413.HC.eff.vcf
8.得到三个文件
其他:
解压缩命令:
.tar
解包:tar xvf FileName.tar
打包:tar cvf FileName.tar DirName
(注:tar是打包,不是压缩!)
———————————————
.gz
解压1:gunzip FileName.gz
解压2:gzip -d FileName.gz
压缩:gzip FileName
.tar.gz 和 .tgz
解压:tar zxvf FileName.tar.gz
压缩:tar zcvf FileName.tar.gz DirName
———————————————
.bz2
解压1:bzip2 -d FileName.bz2
解压2:bunzip2 FileName.bz2
压缩: bzip2 -z FileName
.tar.bz2
解压:tar jxvf FileName.tar.bz2
压缩:tar jcvf FileName.tar.bz2 DirName
———————————————
.bz
解压1:bzip2 -d FileName.bz
解压2:bunzip2 FileName.bz
压缩:未知
.tar.bz
解压:tar jxvf FileName.tar.bz
压缩:未知
———————————————
.Z
解压:uncompress FileName.Z
压缩:compress FileName
tar.Z
解压:tar Zxvf FileName.tar.Z
压缩:tar Zcvf FileName.tar.Z DirName
———————————————
.zip
解压:unzip FileName.zip
压缩:zip FileName.zip DirName
———————————————
.rar
解压:rar x FileName.rar
压缩:rar a FileName.rar DirName
———————————————
.lha
解压:lha -e FileName.lha
压缩:lha -a FileName.lha FileName
———————————————
.rpm
解包:rpm2cpio FileName.rpm | cpio -div
———————————————
.deb
解包:ar p FileName.deb data.tar.gz | tar zxf -
查找参考基因组和注释:
使用ncbi genome 输入物种名
移到文件底端:
esc 88888 下键
明天的下篇文章主要学习各种文件所表达的信息和内容