生信地基系列--bedpe格式

2022-08-24  本文已影响0人  可能性之兽

BEDPE 格式类似于 BED 格式,可用于描述成对的基因组区域。
由于bed文件原则上不能表示跨染色体的信息,因此,对于结构变异,一般采用的一种基于bed文件的变种文件bedpe格式进行存储。其格式与bed最大的区别在于,对于必须列即chrom、chromStart、chromEnd三列分别记录两次。例如

chrom1 - 特征第一端所在的染色体名称。
可以使用任何字符串。
例如,“chr1”、“III”、“myChrom”、“contig1112.23”。此列是必需的。利用 ”.”为未知。

start1 - chrom1 上特征第一端的从零开始的位置。
染色体的第一个碱基编号为 0。
与 BED 格式一样,每个 BEDPE 特征中的起始位置因此被解释为比特征中列出的起始位置大 1。此列是必需的。
使用 -1 表示未知数。

end1 - chrom1 上特征的第一端的从一个开始的结束位置。
每个 BEDPE 特征中的结束位置都是从 1 开始的。
此列是必需的。
使用 -1 表示未知数。

chrom2 - 特征的第二端所在的染色体的名称。
可以使用任何字符串。例如,“chr1”、“III”、“myChrom”、“contig1112.23”。
此列是必需的。
利用 ”.”为未知。

start2 - chrom2 上特征第二端的从零开始的位置。
染色体的第一个碱基编号为 0。
与 BED 格式一样,每个 BEDPE 特征中的起始位置因此被解释为比特征中列出的起始位置大 1。此列是必需的。
使用 -1 表示未知数。

end2 - chrom2 上特征第二端的从 1 开始的结束位置。
每个 BEDPE 特征中的结束位置都是从 1 开始的。
此列是必需的。
使用 -1 表示未知数。

name - 定义 BEDPE 功能的名称。
可以使用任何字符串。例如,“LINE”、“Exon3”、“HWIEAS_0001:3:1:0:266#0/1”或“my_Feature”。
此列是可选的。

score - UCSC 定义要求 BED 分数范围从 0 到 1000,包括 0 到 1000。但是,bedtools 允许将任何字符串存储在此字段中,以便在注释功能中提供更大的灵活性。例如,字符串允许 p 值、平均富集值等的科学记数法。应该注意的是,这种灵活性可能会阻止此类注释在 UCSC 浏览器上正确显示。
可以使用任何字符串。例如,7.31E-05(p 值)、0.33456(平均富集值)、“up”、“down”等。
此列是可选的。

strand1 - 定义特征第一端的链。 “+”或“-”。
此列是可选的。
利用 ”.”为未知。

strand2 - 定义特征第二端的钢绞线。 “+”或“-”。
此列是可选的。
利用 ”.”为未知。

Any number of additional, user-defined fields - bedtools 允许您根据需要向正常的 10 列 BEDPE 格式添加尽可能多的附加字段。这些列只是“通过”pairToBed 和 pairToPair,而不是任何分析的一部分。可以使用这些附加列向每个 BEDPE 特征添加额外信息(例如,对齐每一端的编辑距离,或“删除”、“反转”等)。
这些附加列是可选的。

典型 BEDPE 文件中的条目:

chr1  100   200   chr5  5000  5100  bedpe_example1  30   +  -
chr9  1000  5000  chr9  3000  3800  bedpe_example2  100  +  -

BEDPE 文件中的条目,每条记录都添加了两个自定义字段:

chr1  10    20    chr5  50    60    a1     30       +    -  0  1
chr9  30    40    chr9  80    90    a2     100      +    -  2  1

General usage — bedtools 2.30.0 documentation

上一篇 下一篇

猜你喜欢

热点阅读