Linux系统Shell生物信息学

linux比较两个文件

2018-11-16  本文已影响60人  苏牧传媒

diff 寻找差异

ref:Linux diff --比较两个文件并输出不同之处 - 老莫小小朋友 - CSDN博客

comm 寻找并集

两个文件必须是排序和唯一(sorted and unique)

默认输出为三列,第一列为是A-B,第二列B-A,第三列为A交B

comm -1 -2 <(sort a.txt|uniq ) <(sort b.txt|uniq ) 

comm -1 -2 <(sort a.txt|uniq ) <(sort b.txt|uniq ) | wc -l 

comm -1 -2 <(sort a.txt|uniq ) <(sort b.txt|uniq ) | wc -l > overlap.txt

大部分是overlap的

aaa.txt的差集 -2 -3 参数

bbb.txt的差集 -1 -3 参数

uniq取交集/并集:

ref:如何求两个文件的交集、并集和差集?------sort和uniq闪亮登场 - stpeace的专栏 - CSDN博客

交集:

sort a.txt | uniq > aa.txt

sort b.txt | uniq > bb.txt

cat aa.txt bb.txt | sort | uniq -d 

并集:

cat 1.txt 2.txt | sort | uniq | wc -l 

cat 1.txt 2.txt | sort | uniq > 3.txt

差集:

上一篇 下一篇

猜你喜欢

热点阅读