2023-04-16 | 先对第一列排序再对第二列排序
2023-04-15 本文已影响0人
汪大山
很适合我们的基因组文件,先对染色体排序,再对位点排序
sort -k1,1V -k2,2n aa > bb
具体解释如下:
sort :排序命令
-k1,1V :按照第1个字段排序,起始字段为1,终止字段为1,即只按照第1个字段排序,V以自然语言方式进行排序
-k2,2n :按照第2个字段排序,n以数字方式进行排序
aa :要排序的文件名
bb :将排序后的结果输出到文件 bb 中,如果文件 bb 不存在,则创建该文件;如果文件 bb 已存在,则覆盖原有内容。
因此,该命令的含义是:将文件 aa 按照第1个字段和第2个字段排序,按照第1个字段进行升序排序,如果第1个字段相同,则按照第2个字段以数字方式进行升序排序,最后将排序后的结果输出到文件 bb 中。
例子:用gff文件作为vep的annotation source
grep -v "#" data.gff | sort -k1,1 -k4,4n -k5,5n -t$'\t' | bgzip -c > data.gff.gz
tabix -p gff data.gff.gz
./vep -i input.vcf --gff data.gff.gz --fasta genome.fa.gz