2023-04-16 | 先对第一列排序再对第二列排序

2023-04-15 本文已影响0人汪大山

很适合我们的基因组文件，先对染色体排序，再对位点排序

sort -k1,1V -k2,2n  aa > bb

具体解释如下：

sort ：排序命令
-k1,1V ：按照第1个字段排序，起始字段为1，终止字段为1，即只按照第1个字段排序,V以自然语言方式进行排序
-k2,2n ：按照第2个字段排序，n以数字方式进行排序
aa ：要排序的文件名
bb ：将排序后的结果输出到文件 bb 中，如果文件 bb 不存在，则创建该文件；如果文件 bb 已存在，则覆盖原有内容。

因此，该命令的含义是：将文件 aa 按照第1个字段和第2个字段排序，按照第1个字段进行升序排序，如果第1个字段相同，则按照第2个字段以数字方式进行升序排序，最后将排序后的结果输出到文件 bb 中。

例子：用gff文件作为vep的annotation source

grep -v "#" data.gff | sort -k1,1 -k4,4n -k5,5n -t$'\t' | bgzip -c > data.gff.gz
tabix -p gff data.gff.gz
./vep -i input.vcf --gff data.gff.gz --fasta genome.fa.gz

2023-04-16 | 先对第一列排序再对第二列排序

猜你喜欢

热点阅读