正则表达式 、文本处理工具
正则表达式
正则表达式是通过一些特殊字符的排列,用以查找、替换、删除一行或多行文字字符串
基础正则表达式(grep)
grep 基本正则表达式
功能:
显示匹配信息所在行
options:
-o 只显示匹配到的行
eg:
-v 只显示未匹配到的行
-e 或
eg:grep -e “cat” -e “dog” file1 显示含有cat或dog的行
-w 匹配整个单词(精确查找)
-c 统计匹配的行数
-n 显示匹配结果的行号
-q 静默模式,不显示匹配结果
-A n 同时显示匹配到的行与它的后n行
-B n 同时显示匹配到的行与它的前n行
-C n 同时显示匹配到的行与它的前后n行
-E =egrep
-F =fgrep
-i 忽略字符大小写
–color=auto
gerp
例:文件夹里有以下内容
字符匹配:
. 匹配任意单个字符
例:
[]匹配指定范围内的任意单个字符
例:
[^] 匹配指定范围外的任意单个字符
例:
[:alnum:] 字母和数字
例:
[:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:] 小写字母 [:upper:] 大写字母
[:blank:] 空白字符(空格和制表符)
[:space:] 水平和垂直的空白字符(比[:blank:]包含的范围广)
[:cntrl:] 不可打印的控制字符(退格、删除、警铃...)
[:digit:] 十进制数字 [:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号
匹配次数:用在要指定次数的字符后面,用于指定前面的字
符要出现的次数
.*匹配前面的字符任意次,包括0次
贪婪模式:尽可能长的匹配
例:
.* 任意长度的任意字符
例:r中间任意长度任意字符
? 匹配其前面的字符0或1次
例:
+ 匹配其前面的字符至少1次
例: "ro+t" 包括一次
{n} 匹配前面的字符n次
例: ro{2}t 只能2次,3个都不行
{m,n} 匹配前面的字符至少m次,至多n次
例:
{,n} 匹配前面的字符至多n次
例:
{n,} 匹配前面的字符至少n次
例:
位置锚定:定位出现的位置
cat a1 内容为例:
^ 行首锚定,用于模式的最左侧
例:
$ 行尾锚定,用于模式的最右侧
例:
^PATTERN$ 用于模式匹配整行
^$ 空行
^[[:space:]]*$ 空白行
下面用nano a1 添加了空格
例:删除空格
< 或 \b 词首锚定 ,用于单词模式的左侧
例:和匹配整个单词类似
> 或 \b 词尾锚定;用于单词模式的右侧
<PATTERN> 匹配整个单词
例:图中 come可以在符号除去引号''下划线,第一个命令有个bcomes也有come,所以要锚定词首,词尾。
文本处理工具
抽取文本的工具
文件内容:less和 cat
文件截取: head和tail
按列抽取: cut
按关键字抽取: grep
文件查看命令: cat, tac,rev
查看(cat、less、more、head、tail、cut、paste)
head
用法:head [选项]… [文件]…
head[OPTION]…[FILE]…
默认将每个指定文件的头10行显示到标准输出。如果指定了多于一个文件,在每一段输出前会给出文件名作为
文件头。如果不指定文件,或者文件为“-“,则从标准输入读取数据
-c 显示每个文件的前k字节内容;如果附加“-“参数,则除了每个文件的最后K字节数据外显示剩余全部内容
-n 显示每个文件的前k行内容;如果附加“-“参数,则除了每个文件的最后K 行外显示剩余全部内容
-q –quiet,–silent 不显示包含给定文件名的文件头
-v –verbose 总是显示包含给定文件名的文件头
tail
tail[OPTION]…[FILE]…
tail – 输出文件的末尾部分,默认在标准输出上显示每个文件的最后10行,如果多于一个文件会在每一段输出
前会给出文件名作为文件头,一个接一个地显示。如果不指定文件,或者文件为“-“,则从标准输入读取数据。
-c –bytes=N 输出最后N个字节
-n –lines=N 输出最后N行而非默认的最后10行
-q –quiet –silent 从不输出给出文件名的首部
-v –verbose 总是输出给出文件名的首部
-f –follow[={name|descriptor}] 当文件增长时输出后续添加的数据,动态显示。跟踪显示文件新追加的
内容常用日志监控。
拓展:与head相似,如果N(字节或者行数)的第一个字符为`+’,那么从每个文件的开头算起的第N项开始显示,否则,显示该文件的最后N项。
cut
按列抽取文本
cut[OPTION]…[FILE]…
-d –DELIMITER:指明分隔符,默认为Tab,一般与-f 连用。
-f 选取第几列
n 指定某一列
n-m 指定n列到m列
n,n-m 混合指定
–output-delimiter 指定输出符
示例:截取用户名与UID且以“+”符号为分隔符。
cut -d: -f1,3 –output-delimiter=’+’ /etc/passwd
-c [n-m]按字符切割 第n个字符到第m个字符
-b [n-m]按字节切割 第n个字节到第m个字节
示例:截取/etc/passwd文件的前四个字符。
cut -c 1-4 /etc/passwd
经典练习题:显示当前主机第一个网卡的IP地址
ifconfig |head -n 2| tail -n 1| tr -s ‘ ‘ : |cut -d: -f4
paste
将每个指定文件里的每一行整合到对应一行里写到标准输出,默认用制表符分隔。如果没有指定文件,或指定文件为”-“,程序将从标准输入读取数据。
paste[OPTION]…[FILE]…
-d分隔符:指定分隔符,默认用TAB
-s: 不使用平行的行目输出模式,而是每个文件占用一行
paste f1 f2
paste -s f1 f2
wc
收集文本统计数据
wc命令的功能为统计指定文件中的字节数、单词数、行数并将统计结果显示输出
可以对文件或STDIN中的数据运行
-c –bytes 打印字节数-m –chars 打印字符数 -l –lines 打印行数 -L –max-line-length 打印最长行的长度-w –words 打印单词数
sort
文本排序
把整理过的文本显示在STDOUT,不改变原始文件
sort [options] file
常用选项
sort
-r 执行反方向(由上至下)整理
-n 执行按数字大小整理
-f 选项忽略(fold)字符串中的字符大小写
-u 选项(独特,unique)删除输出中的重复行
-t c 选项使用c做为字段界定符
-k X 选项按照使用c字符分隔的X列来整理能够使用多次
示例:
cat /etc/passwd | sort
#排序默认以第一个数据排序,默认以字符串形式排序,以a开始升序排序,首字母相同则比较下一位的顺序。
cat /etc/passwd | sort -t: -k3
#/etc/passwd中的以“:”为间隔符,对其第三栏排序,默认以第一数据排序,相同的话比较下一位的顺序。
cat /etc/passwd | sort -nt: -k3
#/etc/passwd中的以“:”为间隔符,对其第三栏排序,按数字整体大小升序排列。
cat /etc/passwd | sort -rnt: -k3
#/etc/passwd中的以“:”为间隔符,对其第三栏排序,按数字整体大小以升序相反的方式降序排列。
uniq
uniq命令:从输入文件或者标准输入中删除前后相接的重复的行,注意:连续且完全相同方为重复
uniq[OPTION]…[FILE]…
-c –count 显示每行重复出现的次数
-d –repeated 仅显示重复过的行
-D –all-repeated[=delimit-method 显示所有重复的行
-u –unique 仅显示不曾重复的行
-f –skip-fields=N 比较时跳过前N 列
-s, –skip-chars=N 比较时跳过前N 个字符
-I –ignore-case 在比较的时候不区分大小写
-w –check-chars=N 对每行第N 个字符以后的内容不作对照
常和sort命令一起配合使用:
sort test | uniq –c
接下来介绍比较实用的功能,需要diff与patch功能结合使用。
diff
比较两个文件之间的区别
命令:diff
patch
让用户利用设置修补文件的方式,修改,更新原始文件。
命令:patch
上面两条命令相结合可以做出大事——“打补丁”或“更新”
diff命令的输出被保存在一种叫做“补丁”的文件中
使用-u选项来输出“统一的(unified)”diff格式文
件,最适用于补丁文件。
patch复制在其它文件中进行的改变(注意:要谨慎使用)
适用-b选项来自动备份改变了的文件
示例:
换个角度,你也可以理解为对文件进行更新。同时,不要担心旧版文件的丢失,每次更新都会产生后缀为“.orig”的文件,里面存储着你的旧版文件。