Unix命令行通配符
在Unix下一次性操作多个文件时,命令行提供通配符(wildcards),短文本模式(通常只有一个字符),可以与文件路径中的另一个字符(或多个字符)匹配,这种快捷方式使得可用简洁的模式来代表一组文件或者指定一整套相关的文件路径名。
使用通配符模式,您可以使用单个命令轻松地列出、查看、复制、移动或删除大量文件。通配符比正则表达式早出现,可以看作是原始的正则表达式,功能没有正则强大灵活,但胜在简单和方便。
下面介绍Unix中Bash的各种通配符。
? 字符
?字符代表单个字符。
# 存在文件 1.txt 2.txt 和 13.txt
$ ls ?.txt
1.txt 2.txt
上面命令中,?表示单个字符,所以会同时匹配1.txt和2.txt。如果匹配多个字符,就需要多个?连用。
# 存在文件 1.txt、2.txt 和 13.txt
$ ls ??.txt
13.txt
上面命令中,??
表明匹配两个字符。注意,?
不能匹配空字符,也就是说,它占据的位置必须有字符存在。
* 字符
*
可以代表任意数量的字符。
# 存在文件 1.txt、2.txt 和 13.txt
$ ls *.txt
1.txt 2.txt 13.txt
# 输出所有文件
$ ls *
1.txt 2.txt 13.txt
上面代码中,*
可以匹配任意长度的字符,另外*
也可以匹配空字符。
# 存在文件 1.txt、2.txt 和 13.txt
$ ls 1*.txt
1.txt 13.txt
[...] 模式
[...]
表示匹配方括号之中的任意一个字符,比如[13679]
可以匹配五个数字,或者[aeiou]可以匹配五个元音字母。
# 存在文件 1.txt 2.txt 12.txt 和 13.txt
# 存在文件 a.txt e.txt u.txt 和 ae.txt
$ ls [12].txt
1.txt 2.txt
$ ls [ae].txt
a.txt e.txt
$ ls *[12].txt
12.txt 1.txt 2.txt
$ ls *[ae].txt
a.txt ae.txt e.txt
[start-end]
表示一个连续的范围,[0-9]代表0-9这10个数字,[a-z]代表a-z这26个字母。
# 存在文件 a.txt e.txt u.txt 和 ae.txt
$ ls [a-z].txt
a.txt c.txt u.txt
# 存在文件 report1.txt、report2.txt、report3.txt 和 report13.txt
$ ls report[0-9].txt
report1.txt report2.txt report3.txt
[^...]
和 [!...]
[^...]
和[!...]
表示匹配不在方括号里面的字符(注意不包括空字符),这里两种写法是等同的。
# 存在文件 1.txt 2.txt 3.txt 和 13.txt
$ ls [^1].txt
2.txt 3.txt
$ ls [!1].txt
2.txt 3.txt
上面代码中,[!1]
和 [^1]
表示要排除文件名中包含1的名字。
这种模式下也可以使用连续范围的写法[!start-end]
和 [^start-end]
。
# 存在文件 report1.txt report2.txt report3.txt report4.txt report5.txt 和 report13.txt
$ echo report[!1-3].txt
report4.txt report5.txt
$ echo report[^1-3].txt
report4.txt report5.txt
上面代码中,[!1-3]
和 [^1-3]
表示要排除文件名中包含1、2和3的名字。
{...} 模式
{...}
表示可以匹配大括号里面的所有模式,多个模式之间可以使用逗号分隔用于匹配。
# 存在文件 dag deg dig dug dog ddg 和 dgg,不存在 dtg
$ echo d{a,e,i,u,o,t}g
dag deg dig dug dog dtg
$ ls d{a,e,i,u,o,t}g
ls: cannot access dtg: No such file or directory
dag deg dig dog dug
这个模式也可以用于多字符的模式。
# 存在文件 cat dog pig,不存在tiger
$ echo {cat,dog,pig,tiger}
cat dog pig tiger
$ ls {cat,dog,pig,tiger}
ls: cannot access tiger: No such file or directory
cat dog pig
请注意,当使用echo
的命令的时候,{...}
与[...]
有一个很重要的区别。如果匹配的文件不存在,[...]
会失去模式的功能,变成一个单纯的字符串,而{...}
依然可以展开。但是如果使用ls
的命令时,结果如下:
# 不存在 a.txt 和 b.txt
$ ls [ab].txt
ls: cannot access [ab].txt: No such file or directory
$ echo [ab].txt
[ab].txt
$ ls {a,b}.txt
ls: cannot access a.txt: No such file or directory
ls: cannot access b.txt: No such file or directory
$ echo {a,b}.txt
a.txt b.txt
上面代码中,如果不存在a.txt
和b.txt
,那么[ab].txt
就会变成一个普通的文件名,而{a,b}.txt
可以照样展开。
另外,改模式下的大括号可以嵌套。
$ echo {j{p,p{a,e}}g,p{n,m}g,bmp}
jpg jpag jpeg png pmg bmp
与此同时,大括号也可以与其他模式联用。
# 存在文件 cat dag deg dig dug dog dtg
$ echo {cat,d*}
cat dag deg dig dog dtg dug
# 不存在文件 cat dag deg dig dug dog dtg
$ echo {cat*,d*}
cat* d*
# 存在文件 cat,不存在dag deg dig dug dog dtg
$ echo {cat*,d*}
cat d*
上面代码中,会先进行大括号扩展,然后进行*
扩展。扩展时,会先进行判断文件是否存在,当文件不存在的情况下,会变成字符输出。
{start..end} 模式
{start..end}
会匹配指定的连续范围的字符。
$ echo d{a..f}g
dag dbg dcg ddg deg dfg
$ echo {0..12}
0 1 2 3 4 5 6 7 8 9 10 11 12
如果遇到无法解释的扩展,模式会原样输出。
$ echo d{a1..a12}g d{a1..f12}g
d{a1..a12}g d{a1..f12}g
当这种模式与逗号一起使用,就可以写出复杂的模式。
$ echo .{mp{3..4},m{4..5}{a,b,p,v}}
.mp3 .mp4 .m4a .m4b .m4p .m4v .m5a .m5b .m5p .m5v
注意事项
1、任何通配符都是先解释(或者说是扩展),再执行命令;
# 存在文件 1.txt、2.txt 和 13.txt
$ ls 1*.txt
1.txt 13.txt
此处是先将1*.txt
扩展成1.txt
和13.txt
,然后执行命令ls 1.txt 13.txt
。
这是因为Bash 接收到命令以后,当发现命令中包含有通配符时,会首先进行通配符扩展,然后再执行命令。
2、书写的通配符不匹配时,会当成字符串原样输出;
# 不存在 ac 开头的文件名
$ echo ac*
ac*
$ ls ac*.txt
ls: cannot access ac*.txt: No such file or directory
这里的原因时Bash 在扩展通配符的时候,当发现不存在匹配的文件,会将通配符原样输出。
但是对于echo
的命令时,{...}
不适用这个规则。
3、通配符的使用只适用于单层路径;
上述的所有通配符都只能匹配单层文件路径,不能跨目录进行文件匹配,也可以认为通配符无法匹配子目录里面的文件。这是因为?
或*
这样的通配符,不能匹配路径分隔符(/)。
如果要匹配多层子目录里面的文件,应该写成下面这样。
$ ls */*/*.txt
# 要匹配n层子目录,就使用(n+1)个 *
4、通配符可用作文件名使用;
Unix下允许使用通配符?
*
做文件名,建议如果要使用这样的文件名时,请把文件名放入单或双引号或者\
进行反义里面,避免引人误解。
$ touch 'aaab?' "aaaab?" aab\? aaac* adddd?
$ ls
aaaab? aaab? aaac* aab? adddd?
$ rm 'aaab?' "aaaab?" aab\? aaac* adddd?
$ ls -lthr --color=tty
total 0
References
Think You Understand Wildcards? Think Again
Advanced Wildcard Patterns Most People Don't Know
—— dulunar 后记于 2020.12