生信算法流程Hi-C三维基因组

生信 | 三维基因组技术(三):Hi-C 数据比对及HiC-Pr

2021-06-19  本文已影响0人  生信卷王

写在前面

以下内容均来自我在菲沙基因(Frasergen)暑期生信培训班上记录的课堂笔记

1.Hi-C原理简介

2.比对软件介绍

Bowtie2 BWA
算法原理 FM-Index(基于BWT) BWT construction algorithm
常用比对模式 End-to-End Mem(pair-end)
输出 SAM、TSV SAM
特点 支持单端、双端reads比对;支持插入、缺失错误比对 支持单端、双端reads比对;支持插入、缺失、嵌合reads比对
区别 MAPQ值打分算法不同于BWA 处理嵌合reads时会分段输出比对结果;基因组mapping率略高于Bowtie2
字段名 中文解释 举例
1 QNAME 比对片段的编号,read name V300059328L4C001R0010000044
2 FLAG 位标符,reads mapping情况的数字表示 16
3 RNAME 比对上参考序列的编号 chr10
4 POS 比对上参考序列的位置,1-based 321541
5 MAPQ 比对的质量分数MAPQ=-10 * log10(mapping出错的概率) 60
6 CIGAR 简要比对表达式 150M
7 MRNM mate比对上的参考序列 chr10
8 MPOS mate比对参考序列的位置 322000
9 ISIZE reads比对长度 470
10 SEQ reads的序列
11 QUAL ASCII 码格式的序列质量
12 可选区域 AS:i 匹配的得分;XS:i 第二好的匹配的得分;YS:i mate 序列匹配的得分

3.HiC常规软件比较

软件名 hiclib HiC-Pro HICUP Juice
比对软件 Bowtie2 Bowtie2 Bowtie2 BWA-mem
比对策略 迭代比对 全局、局部比对 先截短后比对 Pair-end,嵌合reads过滤
嵌合reads处理
构建矩阵 ×
标准化 ICE ICE × KR
结果文件 hdf5、hm、bychr(HDF5) SAM、validpair SAM SAM、MND、.hic
特点 比对结果可靠,存储消耗小 简单易用,输出结果可读 过滤非常严格 后续分析接口多,juicebox可视化

4.HiC-Pro代码实操

4.1 软件安装
git clone https://github.com/nservant/HiC-Pro.git
cd ./HiC-Pro
vi config-install.txt
#########################################################################
## Paths and Settings  - Start editing here !
#########################################################################
PREFIX = 文件安装位置
BOWTIE2_PATH = bowtie2安装目录
SAMTOOLS_PATH = samtools安装目录
R_PATH = R的安装目录
PYTHON_PATH = python安装目录
CLUSTER_SYS = 用于集群提交的调度器,必须为TORQUE,SGE,SLURM,LSF四个中的一种
make CONFIG_SYS=config-install.txt install
4.2 bowtie2索引构建
 bowtie2-build [options] <reference> <bt2_index_base>

reference : 下载的参考基因组,genome.fa
bt2_index_base: 构建索引前缀

4.3 使用digest_genome.py生成酶切片段文件
python HiC-Pro/bin/utils/digest_genome.py -r [常用限制性内切酶序列] [-o OUT] fastafile

-r:常用限制性内切酶:

限制性内切酶 酶切位点,^为切割位点
MboI ^GATC
DpnII ^GATC
BglII A^GATCT
HindIII A^AGCTT
生成的bed文件
4.3 生成基因组sizes文件,获得基因组每条染色体bases数bed文件
samtools faidx genome.fa
awk ‘{print $1 "\t" $2}‘ genome.fa.fai > genome_sizes.bed
genome_sizes.bed
4.4 Hi-C数据准备
4.5 配置Config文件
vi ./config-install.txt
4.6 HiC-Pro运行
HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [options]

-c: config文件路径
-o: 结果生成路径
-i: 原始数据路径
-p: 集群运行

5.结果解读

bowtie_results:比对结果目录
hic_results:hic矩阵及分析结果目录
logs:存放分析日志
rawdata:链接了原始数据
tmp:存放中间文件

bwt2:存放合并后的bam文件和统计结果
bwt2_global:存放全局比对结果
bwt2_local:存放局部比对结果

data:存放validpair及其他无效数据文件
matrix:存放不同分辨率矩阵文件
pic:存放统计分析图片
stats:存放统计表

allVaildPairs:合并后的pairs数据
DEPairs:Dangling end pairs数据
DumpPairs:实际片段长度和理论片段长度
不同的数据
REPairs:酶切片段重新连接的pairs
FiltePairs:MAPQ过低的pairs
SCPairs:片段自连的pairs
上一篇 下一篇

猜你喜欢

热点阅读