Linux 之 Bash -- 管线命令

2019-08-03 本文已影响0人熊猫人和熊猫猫

声明：我觉得今天的这篇文章就像一篇“工具”文而且很鸡肋：归纳一些常用的管线命令和应用参数。适合有操作需求时，来查找能够帮忙解决问题的指令和参数～

学习管线命令之前要先了解管道符|，因为管线命令使用的是|这个界定符号，它和使用;的连续下达命令“很像”（关于连续命令符号“;”，Linux 之 Bash -- 数据流重导向里面刚学过，这里不再提啦～）。为了理解“|”，我们来举个例子：
我想看一下 /etc这个目录下的文件列表，但是这个目录里的东西实在太多了，直接 ls -l /etc打印到屏幕上满屏都是，往回翻操作记录都麻烦，所以可以使用ls -l /etc | less，这样ls指令输出后的内容就能够被less读取，并且利用less的功能，我们就能够前后翻动相关的信息了。这是ls -l /etc ; less达不到的效果，因为;只起到下达命令的作用，而|却起到传递标准输出STDOUT的作用，这是本质的区别。整体的管线命令可以用这个图表表示：

管线命令的处理示意图
使用时有两个注意点：

管线命令仅会处理 standard output，对于 standard error output 会予以忽略
管线命令必须要能够接受来自前一个指令的数据成为 standard input 继续处理才行
例如 ls,cp,mv这些不会接受stdin的命令，是不适合放在管道符|后面的

1.撷(xie)取命令: cut,grep

用过cut的伙伴都知道，cut可以提取列，可是实际上，它和grep一样都是针对文本“一行一行”来分析的，以cut -f 3 filename为例：cut文本第一行的第3段数据；cut文本第二行的第3段数据....直到文本的最后一行。最终，组成一列数据输出出来。

1.1 cut

详细聊聊cut的应用

-d 后面接分隔字符，与-f一起使用
eg: cut -d ':' -f 3,5 linux.txt 翻译成人话就是 linux.txt以“:”为分隔字符，帮我把第3段和第5段切出来
-f 后面接数字，取出第几段的意思
-c 后面接数字
以字符(characters)的单位取出固定字符区间
eg: cut -c 1-8 linux.txt 翻译成人话帮我把linux.txt中的，每一行的，第1-8个字符切出来（如果是8-，意即把第8个之后的字符都切出来）

1.2 grep

grep同样是一行一行得分析，它的做事风格很豪爽：如果当中有我想要的信息，就把这一整行都拽出来
grep支持的语法很多，还支持 正规表示法 ，可惜panda还没把正规表示法学通，在这里就只简单介绍几个参数，等到后面再及时更新

-c 计算“搜寻字符串”的次数
eg: grep -c time linux.txt 翻译成人话计算time在linux.txt中出现的次数
-i 忽略大小写来撷取文本行
eg：grep -i AB linux.txt 翻译成人话把linux.txt文本中含有"ab or AB or Ab or aB"的文本行拽出来
-n 顺便输出行号
-v 反向选择，显示没有“搜索字符串”内容的那一行

2.排序命令 sort,wc,uniq

2.1 sort

sort的大特点：可以依据不同的数据型态来排序

-f 忽略大小写的差异
-b 忽略最前面的空格符部分
-M 以月份的名字来排序
-n 使用纯数字进行排序（默认是以文字型态来排序的）
-r 反向排序
-u 相同的数据中，仅出现一行代表(uniq)
-t 指定分隔符(预设是用tab键) 和 cut 中的-d参数作用类似
-k 以哪个区间排序
eg: sort -k 3 linux.txt 以linux.txt中的第3列进行排序

2.2 uniq

用于排序完成后，将重复的资料仅列出一个显示，它的一些参数：

-i 忽略大小写字符的不同
-c 进行计数

2.3 wc 统计行数、字数、字符数

-l 仅列出行
-w 仅列出多少字（英文单字）
-m 多少字符

3.双向重导向 tee

tee的功能其实很简单，可以让standard output转存一份到文件内并将同样的数据继续送到屏幕去处理

tee 的工作流程（from 鸟哥）
举个例子来认识它：
ls -l | tee list.txt | less 翻译成人话：查看当前目录并且将目录内容保存到 list.txt中
看到了吧，这里tee把standard ourtput做了双向输出：一个走向 list.txt;一个走向屏幕，不过我这里用less来查看信息
除此之外，记忆一个tee的参数：

-a 以累加的方式，将数据加入file当中(类似>>)

4.字符转换命令：tr,col,join,paste,expand

4.1 tr（删除或替换文字讯息）

删除一段讯息中的文字；或者进行文字讯息的替换

注意：tr只能从标准输入中读取数据，因此使用tr时,
1.要么通过<将输入文件重定向到标准输入；

2.要么通过管道符|读入数据

tr '[a-z]' '[A-Z]' 将所有的小写变成大写
eg: tr '[a-z]' '[A-Z]' < list.txt 将list.txt 中的所有小写字母转换成大写输出到屏幕
-d 删除讯息当中的字符串
eg: cat /etc/passwd | tr -d ':' /etc/passwd 输出的讯息中，将“:”删除
-s 取代掉重复的字符

4.2 col（用对等的空格键取代tab键）

最常用的操作：通过使用参数-x，将[tab]按键取代成为对应的 相同长度的 空格键
eg:cat -A list.txt （如果list.txt 中有tab键,就会看到很多^I的符号;cat -A可以显示出所有的特殊按键）
再试试cat list.txt | col -x | cat -A 这样打印到屏幕的输出就美观多了
不要光说不做哦～just do it ~

4.3 join（根据相关性合并文件）

join这个小命令只能处理2个文件之间的数据：两个文件当中，有“相同数据”的那一行，才将他们加在一起
例如 /etc/passwd 和 /etc/shadow这两个文件(先看他们的文本特点)：

寻找他们的相同点
可以看到，这两个文本的分隔符都是:，同时第一个字段的内容都相同（都是 root,bin,daemon），如果我们想要把两个文本中不同的数据合在一起，就可以使用join将他们变成这个样子：join -t ':' /etc/passwd /etc/shadow | head -n 3

合并后的样子
认识join的一些参数：join [-ti12] file1 file2

-t: 用来指定分隔符
👆 join -t ':' /etc/passwd /etc/shadow | head -n 3中就是让两个文件合并后以':'分隔。如果不设置的话，默认以空格分隔数据
-i : 忽略大小写的差异
-1 代表第一个文件 -2 代表第二个文件
这两个数字分别指代对应文件要用哪个字段来分析进行整合
eg：join -1 2 a.txt -2 3 b.txt 翻译成人话将a.txt的第2个字段和b.txt的第3个字段整合在一起

注意：插播一下使用join时的注意点

1.需要处理的文件以防顺序错乱，最好排序并去重后再join；
2.指定要整合的字段要相同啊！

而刚开始了解join时，没有数字参数的这个指令是怎么执行的？join -t ':' /etc/passwd /etc/shadow | head -n 3
实际上，👆它只是进行了参数的省略而已，linux默认以两个文件的第1个字段进行分析和整合，完整的它应该是这个样子join -t ':' -1 1 /etc/passwd -2 1 /etc/shadow | head -n 3
怎么样？是不是有点头晕？哈哈，记住就好啦～
总之，join在处理两个相关的数据文件时是非常有帮助的，例如/etc/passwd和/etc/shadow以账号为相关性，而/etc/passwd和/ec/group以所谓的GID(账号的数字定义)为相关性，通过join可以把这些有用的数据放在一起。

4.4 paste（简单粗暴得合并文件）

和join作用类似，也是将两个文件的数据贴在一起，但是它的方式简单粗暴，不会去比较内容是否相关，而是直接将行号相同的字段拼在一起，默认以tab键分隔。
工作模式 paste [-d] file1 file2

-d 后面可以接分隔字符，预设是tab键
eg: paste /etc/passwd /etc/shadow
- 如果file部分写成-，表示来自standard input的资料的意思（以后用到再详细解释）

4.5 expand（用空格取代tab键）

还记得上面提到的col -x吗，它可以将tab键取代为相同长度的空格键。expand和它作用类似，不过expand可以自由设定tab键取代成空格键的个数，所以功能是比col -x更强大的。
常见的工作模式 expand [-t] file

-t后面可以接数字
eg: expand -t 6 a.txt | cat -A 将a.txt中的tab键以1:6的个数比例转换成空格键，并且打印到屏幕（cat -A看一下文件内的所有特殊符号）

小插曲：** 如果我想让空格键转成tab键怎么办？ **
答案：使用 unexpand

-a 除了单词前作为单词分隔的空格外，所有空格都会被转换
--first-only 仅转换每行开头的空格
-t 指定一个tab键占几个字符位（默认8）
通过expand获得的转换过空格的 b.txt
通过unexpand 恢复tab建

5. 分区命令：split

split可以根据文件大小或行数来分区，从而将大文件分成小文件。
（在我们常用的windows里面可是个大问题啊，而进入linux，我们可以很方便得使用split啦～）
常用工作模式： split [-bl] file PREFIX
常用选项和参数

-b 后面可接欲分区成的文件大小（可加单位,eg: b,k,m等）
-l 以行数来进行分区
PREFIX 代表前导符的意思，可作为分区文件的前导文字
eg:
按文件大小split
如果 a.txt 是一个800+kb的大文件，可以通过split分成3个最大为300kb 的文件。指令： split -b 300k a.txt
按文件行数split
如果 a.txt 是一个100+ 行的大文件，可以通过split分成6个最大为20行的文件。指令： split -l 20 a.txt

6.参数代换：xargs

xargs 可以用来产生某个指令的参数，可读入stdin的数据，并且以空格符或断行字符作为分辨，将stdin的资料分隔成arguments(参数)。

xargs听起来很吓人，难理解也是因为实践与想象有差距。如果学着应用它，就会发现，它其实也是很简单的一个命令，don't panic~
常见工作模式： xargs [-0epn] command
选项与参数：

-0 （数字0不是字母O啊～）
如果输入的stdin含有特殊字符，例如. \ \.空格键等字符时，这个-0参数可以将他还原成一般字符。这个参数可以用于特殊状态。
-e 这个是EOF (end of file) 的意思，后面可以接一个字符串，当xargs分析到这个字符串时，就会停止继续工作。
-p 在执行每个指令的argument时，都会询问使用者的意思
-n 后面接次数，每次command指令执行时，要使用几个参数的意思

实践前热身(可以试着在自己的集群上操作)

下面分几步介绍id,同时衬托一下xargs存在的“魅力”！
id 指令可以查询用户的UID/GID等信息 eg: id root

step 1 认识id只接受一个参数的局限性
id $(cut -d ':' -f 1 /etc/passwd | head -n 3)
翻译成人话：将/etc/passwd中的第一列的前三行取出来，并且使用id指令查看信息
这里通过$(cut -d ':' -f 1 /etc/passwd | head -n 3)预先取得了参数，但是因为id只能接受一个参数，因此它会在linux系统里报错。
-step 2 认识 id并不是管线命令的局限性
cut -d ':' -f 1 /etc/passwd | head -n 3 | id
最终你会发现，你查了自己！因为id不是管线命令，它是没有办法接收|前面的信息的。因此cut -d ':' -f 1 /etc/passwd | head -n 3 | id 的执行效果就等于直接在linux命令行中输入id 所执行的结果。

这可肿么办？ xargs来了就有了办法～

xargs -n
cut -d ':' -f 1 /etc/passwd | head -n 3 | xargs -n 1 id 就可以顺利得获得相应用户的详细信息，把它翻译成人话就是：将/etc/passwd的第一列的前三行提出来然后通过xargs将此三行内容转换成指令id的参数（考虑到id只能一个一个得接收参数，因此使用了-n 1使3个参数一个一个得传递到达）
xargs -p
cut -d ':' -f 1 /etc/passwd | head -n 3 | xargs -p -n 1 id 这里增加了-p选项，则在使用过程中，被询问到每个指令是否执行！
xargs -e
cut -d ':' -f 1 /etc/passwd | xargs -e'sync' -n 1 id
在我们下达 -e'sync'后，在分析到sync这个字符串时，后面的stdin内容就会被xargs舍弃掉了