正则表达式、文本处理工具

2017-08-20 本文已影响0人不知岁月惜

正则表达式

正则表达式是通过一些特殊字符的排列，用以查找、替换、删除一行或多行文字字符串
基础正则表达式（grep）

grep    基本正则表达式
功能：
    显示匹配信息所在行     
options：
-o     只显示匹配到的行
eg：
-v     只显示未匹配到的行
-e     或
eg：grep -e  “cat”  -e  “dog”  file1   显示含有cat或dog的行
-w    匹配整个单词（精确查找）
-c     统计匹配的行数
-n     显示匹配结果的行号
-q     静默模式，不显示匹配结果
-A n  同时显示匹配到的行与它的后n行
-B n  同时显示匹配到的行与它的前n行
-C n  同时显示匹配到的行与它的前后n行
-E     =egrep
-F     =fgrep
-i      忽略字符大小写
–color=auto

gerp
例：文件夹里有以下内容

字符匹配:
. 匹配任意单个字符

例：

[]匹配指定范围内的任意单个字符

例：

[^] 匹配指定范围外的任意单个字符

例：

[:alnum:] 字母和数字
例：

[:alpha:] 代表任何英文大小写字符，亦即 A-Z, a-z
[:lower:] 小写字母 [:upper:] 大写字母
[:blank:] 空白字符（空格和制表符）
[:space:] 水平和垂直的空白字符（比[:blank:]包含的范围广）
[:cntrl:] 不可打印的控制字符（退格、删除、警铃...）
[:digit:] 十进制数字 [:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号

匹配次数：用在要指定次数的字符后面，用于指定前面的字
符要出现的次数
.*匹配前面的字符任意次，包括0次
贪婪模式：尽可能长的匹配
例：

.* 任意长度的任意字符
例：r中间任意长度任意字符

? 匹配其前面的字符0或1次
例：

+ 匹配其前面的字符至少1次
例： "ro+t" 包括一次

{n} 匹配前面的字符n次
例： ro{2}t 只能2次，3个都不行

{m,n} 匹配前面的字符至少m次，至多n次
例：

{,n} 匹配前面的字符至多n次
例：

{n,} 匹配前面的字符至少n次
例：

位置锚定：定位出现的位置
cat a1 内容为例：

^ 行首锚定，用于模式的最左侧
例：

$ 行尾锚定，用于模式的最右侧
例：

^PATTERN$ 用于模式匹配整行

^$ 空行
^[[:space:]]*$ 空白行
下面用nano a1 添加了空格

例：删除空格

< 或 \b 词首锚定，用于单词模式的左侧
例：和匹配整个单词类似
> 或 \b 词尾锚定；用于单词模式的右侧

<PATTERN> 匹配整个单词
例：图中 come可以在符号除去引号''下划线，第一个命令有个bcomes也有come，所以要锚定词首，词尾。

文本处理工具

抽取文本的工具
文件内容:less和 cat
文件截取： head和tail
按列抽取： cut
按关键字抽取： grep
文件查看命令： cat, tac,rev

查看（cat、less、more、head、tail、cut、paste）

head

用法：head [选项]… [文件]…

head[OPTION]…[FILE]…
默认将每个指定文件的头10行显示到标准输出。如果指定了多于一个文件，在每一段输出前会给出文件名作为
文件头。如果不指定文件，或者文件为“-“，则从标准输入读取数据
-c  显示每个文件的前k字节内容；如果附加“-“参数，则除了每个文件的最后K字节数据外显示剩余全部内容
-n  显示每个文件的前k行内容；如果附加“-“参数，则除了每个文件的最后K 行外显示剩余全部内容
-q  –quiet，–silent 不显示包含给定文件名的文件头
-v  –verbose 总是显示包含给定文件名的文件头

tail

tail[OPTION]…[FILE]…

tail – 输出文件的末尾部分，默认在标准输出上显示每个文件的最后10行，如果多于一个文件会在每一段输出
前会给出文件名作为文件头，一个接一个地显示。如果不指定文件，或者文件为“-“，则从标准输入读取数据。
-c  –bytes=N 输出最后N个字节
-n  –lines=N 输出最后N行而非默认的最后10行
-q  –quiet –silent 从不输出给出文件名的首部
-v  –verbose 总是输出给出文件名的首部
-f  –follow[={name|descriptor}] 当文件增长时输出后续添加的数据，动态显示。跟踪显示文件新追加的
内容常用日志监控。

拓展：与head相似，如果N(字节或者行数)的第一个字符为`+’，那么从每个文件的开头算起的第N项开始显示，否则，显示该文件的最后N项。

cut

按列抽取文本

cut[OPTION]…[FILE]…
-d –DELIMITER:指明分隔符，默认为Tab，一般与-f 连用。
-f 选取第几列
n  指定某一列
n-m  指定n列到m列
n,n-m  混合指定
–output-delimiter 指定输出符

示例：截取用户名与UID且以“+”符号为分隔符。
cut -d: -f1,3 –output-delimiter=’+’ /etc/passwd

-c [n-m]按字符切割第n个字符到第m个字符
-b [n-m]按字节切割第n个字节到第m个字节
示例：截取/etc/passwd文件的前四个字符。
cut -c 1-4 /etc/passwd

经典练习题：显示当前主机第一个网卡的IP地址

ifconfig |head -n 2| tail -n 1| tr -s ‘ ‘ : |cut -d: -f4
paste
将每个指定文件里的每一行整合到对应一行里写到标准输出，默认用制表符分隔。如果没有指定文件，或指定文件为”-“，程序将从标准输入读取数据。
paste[OPTION]…[FILE]…
-d分隔符:指定分隔符，默认用TAB
-s: 不使用平行的行目输出模式，而是每个文件占用一行
paste f1 f2
paste -s f1 f2

wc

收集文本统计数据
wc命令的功能为统计指定文件中的字节数、单词数、行数并将统计结果显示输出
可以对文件或STDIN中的数据运行
-c –bytes 打印字节数-m –chars 打印字符数 -l –lines 打印行数 -L –max-line-length 打印最长行的长度-w –words 打印单词数

sort

文本排序
把整理过的文本显示在STDOUT，不改变原始文件
sort [options] file
常用选项
sort

 -r 执行反方向（由上至下）整理
   -n 执行按数字大小整理
   -f 选项忽略（fold）字符串中的字符大小写
   -u 选项（独特，unique）删除输出中的重复行
   -t c 选项使用c做为字段界定符
   -k X 选项按照使用c字符分隔的X列来整理能够使用多次

示例：

cat /etc/passwd | sort
#排序默认以第一个数据排序，默认以字符串形式排序，以a开始升序排序，首字母相同则比较下一位的顺序。
cat /etc/passwd | sort -t: -k3
#/etc/passwd中的以“:”为间隔符，对其第三栏排序，默认以第一数据排序，相同的话比较下一位的顺序。
cat /etc/passwd | sort -nt: -k3
#/etc/passwd中的以“:”为间隔符，对其第三栏排序，按数字整体大小升序排列。
cat /etc/passwd | sort -rnt: -k3
#/etc/passwd中的以“:”为间隔符，对其第三栏排序，按数字整体大小以升序相反的方式降序排列。

uniq

uniq命令：从输入文件或者标准输入中删除前后相接的重复的行，注意：连续且完全相同方为重复
uniq[OPTION]…[FILE]…

-c  –count 显示每行重复出现的次数
-d  –repeated 仅显示重复过的行
-D  –all-repeated[=delimit-method 显示所有重复的行
-u  –unique 仅显示不曾重复的行
-f  –skip-fields=N   比较时跳过前N 列
-s, –skip-chars=N    比较时跳过前N 个字符
-I  –ignore-case     在比较的时候不区分大小写
-w  –check-chars=N   对每行第N 个字符以后的内容不作对照

常和sort命令一起配合使用：
sort test | uniq –c

接下来介绍比较实用的功能，需要diff与patch功能结合使用。

diff
比较两个文件之间的区别
命令：diff
patch
让用户利用设置修补文件的方式，修改，更新原始文件。
命令：patch

上面两条命令相结合可以做出大事——“打补丁”或“更新”
diff命令的输出被保存在一种叫做“补丁”的文件中
使用-u选项来输出“统一的（unified）”diff格式文
件，最适用于补丁文件。
patch复制在其它文件中进行的改变（注意：要谨慎使用）
适用-b选项来自动备份改变了的文件

示例：

换个角度，你也可以理解为对文件进行更新。同时，不要担心旧版文件的丢失，每次更新都会产生后缀为“.orig”的文件，里面存储着你的旧版文件。

正则表达式、文本处理工具