三维基因组试读生信算法流程

生信 | 三维基因组技术(二):Hi-C辅助组装与Lachesi

2021-06-18  本文已影响0人  生信卷王

写在前面

1.Hi-C 辅助组装(PGA)技术原理

染色质在细胞核内分布的并不是随机分布的,而是不同染色体占据不同的空间。

染色体疆域 Hi-C实验原理图

染色体内互作强度较强,但也随着空间距离的增大互作强度在衰减

互作衰减

2.Hi-C技术辅助基因组组装目的

辅助组装

3.Hi-C技术主流辅助组装软件

1.Cluster(聚类)。因为染色质内的互 作强度要高于染色质间的互作强度,所 以先对contig/scaffold进行聚类成染色体群。
2.Order(排序)。确定每个染色体群中contig/scaffold的顺序
3.Orient(定向)。确定每个 contig/scaffold的方向三个步骤按照互作强度依次

辅助组装步骤 聚类原理 排序原理 定向原理

4.Hi-C PGA代码实操(PGA即辅助组装)

4.1 软件安装与编译

git clon https://github.com/shendurelab/LACHESIS.git
#此外还需要使用conda安装boost与samtools
conda install -c conda-forge boost-cpp -y
conda install -c bioconda samtools -y
conda install -c bioconda bwa -y
#都安装完成后,开始编译
cd LACHESIS/
make
#后续用到的脚本都在/lachesis/src/bin目录下

4.2 数据比对

bwa index draft_genome.fasta
bwa mem -t 10 ./draft_genome.fasta ./R1.fastq.gz ./R2.fastq.gz > thaliana.sam

4.3 数据过滤

perl /lachesis/PreprocessSAMs-rmsubalig.pl thaliana.sam thaliana.II.sam
#PreprocessSAMs-rmsubalig.pl脚本接输入和输出文件的名字,运行完会得到一个过滤后的sam文件:后缀.II.sam
cp /lachesis/src/bin/PreprocessSAMs.pl ./
vim PreprocessSAMs.pl
#小tips:vim下使用set nu显示行号,输入数字直接跳转
#根据Hi-C实验过程中使用的限制性内切酶,更改酶切位点序列 (拟南芥使用的是HindIII,对应的酶切位点序列是AAGCTT,$RE_site对应的就是酶切序列)
修改PreprocessSAMs.pl
cp /lachesis/src/bin/PreprocessSAMs.sh ./
vim PreprocessSAMs.sh
#以下几处需修改:
#DIR
#在第46行,修改为目前所在的目录路径,可用pwd命令显示当前路径
#SAMS
#在第48行,修改为上一步生成的sam文件名字 (例如thaliana.II.sam)
#ASSEMBLY
#在第49行,修改为参考基因组的路径(例如../01.ref/arabidopsis_thaliana_draft_genome.fasta)
#注意:ASSEMBLY一定要用相对路径,否则会报错PreprocessSAMs.pl: Can't find draft assembly fil
修改PreprocessSAMs.sh
sh PreprocessSAMs.sh
# 注意:这一步运行完需要按回车键结束
cd ..
数据过滤结果文件

4.4 Lachesis组装

mkdir 04.lachesis
cd 04.lachesis
mkdir bam_file
cd bam_file
ln -s /data/alnbam/*.II.REduced.paired_only.bam
cd ..
cp lachesis/src/bin/INIs/test_case.ini ./
vim test_case.ini
mkdir ~/bin #会在这个目录下生成画图脚本
mkdir ~/public_html #在这个目录下生成图片
ulimit -s unlimited #表示不限制线程,如果没有设置则会报错
/gnu_modulefile/lachesis test_case.ini
perl /src/bin/CreateScaffoldedFasta.pl /local_data1/draft_genome.fasta /local_data1/04.lachesis/out/NNJ_90_2_3_120_10
#输入两个参数,第一个是参考基因组路径,第二个是上一步lachesis组装时的输出文件夹路径
上一篇下一篇

猜你喜欢

热点阅读