转载部分linux&githublinux tools

Linux那点事-xargs命令详解

2019-03-21  本文已影响34人  小胖学编程

Linux xargs 命令
xargs原理剖析及用法详解

1. 为什么需要xargs命令

1.1 管道|的缺陷

管道实现的是将前面的输出stdout作为后面的输入stdin,但是有些命令不接受管道的传递方式。例如:ls,这是为什么呢?因为有些命令希望管道传递过来的是参数,但是直接使用管道有时无法传递到命令的参数位。这时候就需要xargsxargs实现的是将管道传递过来的stdin进行处理然后传递到命令的参数位置上。

用户查找文件:

查找文件

用户希望处理查找后的文件:

管道的缺陷

也就是xargs完成了两个行为:

1. 处理管道传输过来的stdin
2. 将处理后的数据传递到正确的位置;

1.2 xargs对数据的处理

处理大量数据的时候,可能会发生参数列表过长的情况。而xargs将完成参数的定位我们清楚,但是xrags如何处理管道传输的stdin呢?

其实就是完成两个操作:

1. 对数据的分割;
2. 对数据的分批;

xargs处理的优先级或顺序:先分割,在分批,然后传递到参数位。

在分批之前,每次只能一个一个的数据进行传递,分批可以实现实现n个n个传递,每传递一次,xargs后面的命令处理这n个中的每一个,处理完毕处理下一批传递过来的批。

1.2.1 xrags的并发处理

但需要注意的是,尽管实现了分批处理,但是默认情况下并没有提高任何效率,因为分批传递之后还是一次执行一个。而且有时候分批之后是将其作为一个参数的整体,并不会将分批中的信息分段执行。

但事实上,xargs提高了-P选项,用于指定并发执行的数量(默认是只要一个处理进程,不会提供效率,但是可以指定为N个子进程,或者指定为0表示尽可能多的利用CPU)。这样就能将让分批操作更好的利用多核CPU,从而提升效率。例如上面分成了两批,指定-P 2可以并发执行两批,而并非执行完第一批之后再执行第二批。

剩下的功能就是处理xargs的细节问题了,比如如何分割(xargs、xargs -d、xargs -0),分割后如何划批(xargs -n、xargs -L),参数如何传递(xargs -i)。另外xargs还提供了询问交互处理(-p选项)和预先打印一遍命令执行情况(-t选项),传递终止符(-E选项)等。

1.2.2 执行命令准备

命令准备:

[root@xuexi tmp]$ cd /tmp
[root@xuexi tmp]$ rm -fr *
[root@xuexi tmp]$ mkdir a b c d test logdir shdir
[root@xuexi tmp]$ touch "one space.log"
[root@xuexi tmp]$ touch logdir/{1..10}.log
[root@xuexi tmp]$ touch shdir/{1..5}.sh
[root@xuexi tmp]$ echo "the second sh the second line" > shdir/2.sh 
[root@xuexi tmp]$ cat <<eof>shdir/1.sh  
> the first sh
> the second line
> eof

1.2.3 Linux空格含义

那么按照什么规则进行“分割”以及“分批”呢?

Linux文件空格分类(重点):

换行符、制表符、空格符 文本意义换行符和标记意义换行符

2. xrags的分割行为

xargs首先进行分割,然后进行分批;xargs -0xargs -d的特殊意义上的分隔行为,即xargs -d "\0"

需要注意: xargs 默认是以【文本/标记】空白字符 (空格, TAB, 换行符) 来分割记录的。

注意事项

1. xargs -d原理

2. 案例分析

使用-d分段

xargs -d "o"就是将【o】替换成【分段空格】,其实分成了4段。

使用-n查看-d的分批情况

我们使用【-n 2】分批命令。看到字段是分成了2批;

3. xrags -0命令

xargs -0的行为和xargs -d基本一样,只是-d是指定分割符,-0是指定固定的\0作为分割符。等价于xargs -d "\0"

(注意)xargs -0 可以处理接收到的stdin中的null字符(\0)。如果不使用-0选项或-null选项,检测到\0后会给出警告提醒,并只向命令传递非\0段。

tr命令:替换或者删除字符】

\0的作用

4. 实际应用:
-xargs -0的包含空格的文件的操作。

【起因】使用find+rm命令无法删除带有空格的文件。

xargs命令输出

【原因】:xargs默认是以空白字符(空格、换行符、制表符)来分割记录的,因此文件名就被分割为./one和file.txt文件。当然find无法找到的。

【解决方案】:我们知道find命令,文件后面均是换行符

find命令

【解决方案】为了解决这个问题,可以在每个文件将换行符替换为NULL(\0)。这样我们以\0分割,就可以得到完整文件。

xargs -0分段

为什么要使用\0作为分割符,而不是其他字符呢?因为在编程语言中,一般使用\0作为结束标志。而文件的路径名不可能包含\0

本质上是借助xargs的对\0的分割操作。find命令将换行符替换成\0。

3. xargs的分批行为

对于xargs,不写命令时默认的执行是echo

默认xargs命令将换行处理掉了

1. 默认分批处理

将换行处理掉不是echo实现的,而是管道传递过来的stdin经过xargs处理后得到的。将所有【文本/标记意义】空格、制表符和分行符都替换为【文本意义】上空格并压缩到一行显示。

【注意】这一整行将作为一个整体。这个整体可能直接交给命令或者作为stdout通过管道传递给管道右边的命令,这时结果将作为一个整体传递,也有可能被xargs同时指定的【分批选项】分批处理。(这也是可能出现参数列表过长的原因)

总结下:

2. 对独立的xargs指定分批选项

【需要注意的是】:【xargs -n】本质上分为两种情况:

  1. 和独立的xargs一起使用,这时按照每个空格分段划批;
  2. xargs -dxargs -0一起使用,这时按段分批;
  3. xargs -L-n选项类似,唯一的区别就是-L永远是按段划批,而-n和独立的xargs一起使用时是按空格分段划批的。
-n和-L的区别 -i也不会分割文本意义的空格

4 xargs -i 接收传递的分批结果

xargs -i选项在逻辑上用于接收传递的分批结果。

如果不使用-i,则默认是将分割处理后的结果整体传递到【命令的最尾部】。但是有时候需要传递到多个位置,不使用-i就不知道传递到哪个位置了。

例如:重命名备份的时候在每个传递过来的文件名加上后缀.bak,这需要两个参数位。

语法:
使用xargs -i时以大括号{}作为替换符号,传递的时候看到{}就将结果替换,可以将{}放在任意需要传递的参数位置上。如果多个地方使用{}就实现了多个传递。

xargs -Ixargs -i是一样的,只是-i默认使用大括号作为替换符号,-I可以指定其他符号、字母、数字作为替换符号,但是必须用引号包起来。man推荐使用-I代替-i,但是一般使用-i方便,除非在命令中不能使用{},例如touch {1...10}.log时,大括号就不能用来做替换符号。

分析:重命名备份的时候在每个传递过来的文件名加上后缀.bak

案例分析1:

./指的是当前目录】

  1. 重命名逻辑是:mv ./logdir/a.log ./logdir/a.log.bak
  2. 我们想将一个目录下的文件都要执行某些逻辑。

命令:ls logdir/ | xargs -i mv ./logdir/{} ./logdir/{}.bak

为什么将“-i”选项划分在分批选项里面,因为它默认一个段就是一个批,每次传递一个批就是传递一个段到指定大括号{}位上。不理解,可以看下1.2.4 分批选项的生效规则

xargs的-i字段的使用

案例分析2:

例如:想将数字1-10没三个数显示在startend之间。

start 1 2 3 end 
start 4 5 6 end 
start 7 8 9 end 
start 10 end 

由于指定了参数传递位置,所以必须使用-i,那就无法一次传递3个数,要解决这个问题,就要想办法让每三个树分一次段,然后后使用-i传递,那么可以将每三个数分一次行写入一个文件。
例如:

xargs -i分段操作

当然,也可以多次使用xargs。在很多使用无法解决分段的问题都可以通过多次使用xargs来解决。

多次使用xargs命令进行分段

5. 分批选项的生效规则

-i、-L、-n选项都是分批选项,他们的生效规则是:谁指定在后面,谁就生效!!!

-i在-n之后,-n将被忽略

实际上,-i就是隐含了-L 1-i分批并传递这两个作用跟严格些。


6. xargs观察命令的执行过程

使用-p选项是交互询问式的,只有每次询问的时候输入y(或者yes)才会执行,直接按entry键是不会执行的。

使用-t选项是在每次执行xargs后面的命令都会先在stderr上打印一遍命令的执行过程然后才正式执行。

使用-p-t选项就可以根据xargs后面的命令的执行顺序进行推测,xargs是如何分段,分批以及传递的。

-p或者-t参数如何使用

【后续】 分批选项的的典型应用

1. 同一目录下文件过多

分批选项有时特别有用,例如脚本规定每次只能传递三个参数,有时候grep或者rm -rf文件数量特别多的时候会提示参数列表过长而导致失败,这时候就可以分批来按批查询或删除。
命令:ls | xargs -n 10000 rm -rf

2. xargs+find的使用

xargs原本就是为find而开发的。

find命令将匹配到的文件传递给xargs命令,而xargs命令每次只获取一部分而不是全部。不像-exec选项那样,这样就可以先处理最先获取的一部分文件,然后是下一批。

实际应用:

ls+grep跨目录查询时,我们将文件通过管道输入到grep参数处,此时并没有包含目录地址,边会出现下面的错误。

ls + grep 跨目录查询

解决方案:

find找到的文件地址传递给grep命令的参数处。

find+grep
上一篇下一篇

猜你喜欢

热点阅读