linux020 文本处理命令 grep,sed,awk
2020-08-23 本文已影响0人
caoqiansheng
grep 、sed、awk被称为linux中的"三剑客"。
- grep 适合单纯的查找或匹配文本
- sed 适合编辑匹配到的文本
- awk 适合格式化文本,对文本进行较复杂格式处理
1. grep命令
grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]
1.1 语法
grep [OPTION]... PATTERNS [FILE]
1.2 参数
参数 | 含义 |
---|---|
-a 或 --text | 不要忽略二进制的数据 |
-A<显示行数> 或 --after-context=<显示行数> | 除了显示符合范本样式的那一列之外,并显示该行之后的内容 |
-b 或 --byte-offset | 在显示符合样式的那一行之前,标示出该行第一个字符的编号 |
-B<显示行数> 或 --before-context=<显示行数> | 除了显示符合样式的那一行之外,并显示该行之前的内容 |
-c 或 --count | 计算符合样式的列数 |
-C<显示行数> 或 --context=<显示行数>或-<显示行数> : 除了显示符合样式的那一行之外,并显示该行之前后的内容 | |
-d <动作> 或 --directories=<动作> | 当指定要查找的是目录而非文件时,必须使用这项参数,否则grep指令将回报信息并停止动作 |
-e<范本样式> 或 --regexp=<范本样式> | 指定字符串做为查找文件内容的样式 |
-E 或 --extended-regexp | 将样式为延伸的正则表达式来使用 |
-f<规则文件> 或 --file=<规则文件> | 指定规则文件,其内容含有一个或多个规则样式,让grep查找符合规则条件的文件内容,格式为每行一个规则样式 |
-F 或 --fixed-regexp | 将样式视为固定字符串的列表 |
-G 或 --basic-regexp | 将样式视为普通的表示法来使用 |
-h 或 --no-filename | 在显示符合样式的那一行之前,不标示该行所属的文件名称 |
-H 或 --with-filename | 在显示符合样式的那一行之前,表示该行所属的文件名称 |
-i 或 --ignore-case : 忽略字符大小写的差别 | |
-l 或 --file-with-matches | 列出文件内容符合指定的样式的文件名称 |
-L 或 --files-without-match | 列出文件内容不符合指定的样式的文件名称 |
-n 或 --line-number | 在显示符合样式的那一行之前,标示出该行的列数编号 |
-o 或 --only-matching : 只显示匹配PATTERN 部分 | |
-q 或 --quiet或--silent : 不显示任何信息 | |
-r 或 --recursive | 递归搜索 |
-s 或 --no-messages | 不显示错误信息 |
-v 或 --revert-match | 显示不包含匹配文本的所有行 |
-V 或 --version | 显示版本信息 |
-w 或 --word-regexp | 只显示全字符合的列 |
-x --line-regexp | 只显示全列符合的列 |
-y | 此参数的效果和指定"-i"参数相同 |
grep root /etc/passwd # 在文件/etc/passwd中查找root
grep -i Root /etc/passwd # 忽略大小写
grep -o root /etc/passwd # 只显示匹配到的内容
grep -v root /etc/passwd # 输出所有不包含匹配内容的行
grep -c root /etc/passwd # 计算符合样式的数目
grep -r root /etc # 以递归的方式查找符合条件的文件
grep -l root /etc/passwd # 列出文件内容符合指定的样式的文件名称
2. sed命令
sed [-hnV][-e<script>][-f<script文件>][文本文件]
2.1 语法
Usage: sed [OPTION]... {script-only-if-no-other-script} [input-file]...
参数 | 含义 |
---|---|
-e | script 在处理输入时,将script中指定的命令添加到已有的命令中 |
-f | file 在处理输入时,将file中的指定的命令添加到已有的命令中 |
-n | 安静模式,或仅显示文本处理结果 |
# 下面的命令其实是sed -e 's/old/new/g' data.txt, -e参数被省略
sed 's/old/new/g' data.txt
# 如果需要执行多条命令,需要加上-e参数,命令间以:分隔,命令末尾及分号间不可以有空格
sed -e 's/old/new/g;s/black/white/g' data.txt
# 如果不想用分号,也可以用bash的次提示符进行命令分隔
sed -e '
> s/brown/green/
> s/fox/elephant/
> s/dog/cat/' data1.txt
# 读取脚本命令
sed -f script1.sed data.txt
# 显示所有
nl /etc/passwd | sed '5,7p'
# 仅显示5~7行
nl /etc/passwd | sed -n '5,7p'
- 动作说明
[n1,n2] function
function参数 | 含义 |
---|---|
a | 新增,a后面可以接字符串,这些字符串会在新一行出现(当前行的下一行) |
i | 插入,i后面可以接字符串,这些字符串会在新一行出现(当前行的上一行) |
c | 替换,c后面可以接字符串,这些字符串可以替换n1~n2之间的行 |
d | 删除,删除n1~n2之间的所有行 |
p | 打印 |
s | 替换,搭配正则表达式使用 |
nl /etc/passwd | sed '2a drink tea' # 在第2行前插入新行,内容为后接字符串
nl /etc/passwd | sed '2i drink tea' # 在第2行后插入新行,内容为后接字符串
nl /etc/passwd | sed '2,5d drink tea' # 删除2~5行
nl /etc/passwd | sed '2,5c drink tea' # 使用c后内容替换2~5行
2.2 替换标记
sed 's/old/new/' # 只替换每行中出现的第一处,将old替换为new,如果new为空,即为删除
sed 's/old/new/数字' # 表明新文本将替换第几处匹配的对象
sed 's/old/new/g' # 新文本将替换所有匹配的文本
sed 's/old/new/p' # 原先行的内容要打印出来
sed 's/old/new/w file' # 将替换的结果写入文件
sed命令并不会修改文件的数据,只会将修改后的数据发送到STDOUT
2.3 行寻址(line addressing)
默认情况下,在sed编辑器中使用的命令会作用于文本数据的所有行,如果想要对特定的行进行处理,需要使用行寻址(line addressing),sed编辑器中有两种行寻址
- 以数字表示行区间
sed '2s/dog/cat/' data1.txt # 替换第2行匹配到的第一个dog
sed '2,3s/dog/cat/' data1.txt # 替换第2~3行匹配到的第一个dog
sed '2,$s/dog/cat/' data1.txt # 替换从第2行开始的所有行匹配到的第一个dog,美元符$表示到文本尾部
- 以文本模式来过滤出行
sed '/character/s/dog/cat/' data1.txt # 仅将含character的行,其第1个匹配的dog替换为cat
2.4 命令组合
如果需要在单行执行多条命令,可以使用花括号将多条命令组合至一起
sed '2,$ {
> s/fox/elephant/
> s/dog/cat/
> }' data1.txt
3.awk
3.1 语法
awk [options] 'Pattern{Action}' file
options | 含义 |
---|---|
-f file | 从指定的文件中读取程序 |
-F fs | 指定fs作为划分文本的分隔符 |
-v var=value | 定义awk程序中的一个变量及其默认值 |
3.2 基础用法
- awk擅长文本格式化,并且将格式化以后的文本输出,所以awk最常用的动作就是print和printf
- awk可以灵活的将指定的字符与每列进行拼接,或者把指定的字符当做一个新列插入到原来的列中,也是awk格式化文本能力的体现
# 最简单的awk命令,仅执行了一个打印动作
awk '{print}' /etc/passwd
# 当awk处理文本会逐行进行处理,处理完当前行再处理下一行,awk默认以"换行符"为标记,识别每一行(连续空格默认为一个空格)
# -F参数指定分隔符
# $0 表示显示整行 ,$NF表示当前行分割后的最后一列($0和$NF均为内置变量),NF表示当前行被分隔符切开以后,一共有几个字段。
# $0指全部列,$1为第1列,$2第2列,$n第n列
awk -F: '{print $1}' /etc/passwd
# 如果需要显示多列,需要以逗号分隔,可用于组合文本的不同列
awk -F: '{print $1, $2, $NF}' /etc/passwd
# 除了输出文本中的列,我们还能够添加自己的字段,将自己的字段与文件中的列结合起来
awk -F: '{print $1, $2, "it is a test"}' /etc/passwd
3.3 awk特殊模式
3.3.1 BEGIN
BEGIN 模式指定了处理文本之前需要执行的操作:
3.3.2 END
END 模式指定了处理完所有行之后所需要执行的操作:
# 提取/etc/passwd前5行,并经过管道符 | 传递给awk
# 以冒号为分隔符,在处理文本前打印hello!,提取以冒号分隔的第1列,在文本处理结束后,打印The End
# 不同的大括号代表不同命令,需要使用分号进行分隔,并在外侧使用单引号进行界定,要注意的是,单引号区间内,不可以在使用单引号
head -5 /etc/passwd | awk -F: 'BEGIN {print "hello!"};{print $1};END {print "The End"}'
# 上述命令也可以通过使用shell的次提示符实现
head -5 /etc/passwd | awk -F: 'BEGIN {print "hello"}
> {print $1}
> END{print "The End"}
> '
image.png