C语言，也有正则表达式

2016-04-21 本文已影响3991人字芽

最近在工作中碰到了需要检查日志文件的问题，这就涉及到对日志文件中每条日志的关键字检索，于是我特地学习了下C语言的正则表达式规则，特此跟大家分享。

一、C语言如何使用正则表达式？

C语言使用正则表达式的方法很简单，只需要包含正则表达式头文件即可：
#include<regex.h>

相关函数：

regcomp()：编译正则表达式
regexec()：进行模式匹配
regfree()：当不再需要编译的正则表达式时要将其释放

使用时依次调用这些函数即可。其中特别需要提出是regexec()函数的最后一个参数，有如下四种选择：
REG_EXTENDED以功能更加强大的扩展正则表达式的方式进行匹配；
REG_ICASE 匹配字母时忽略大小写；
REG_NOSUB 不用存储匹配后的结果；
REG_NEWLINE 识别换行符号。

一般，我们选择第一个功能更强大的扩展表达式即可。

下面是一个封装这些函数的例子（供参考）：

bool matchRegex(const char* pattern, const char* userString)
{
    bool result = false;

    regex_t regex;
    int regexInit = regcomp( &regex, pattern, REG_EXTENDED );
    if( regexInit )
    {
        //Error print : Compile regex failed
    }
    else
    {
        int reti = regexec( &regex, userString, 0, NULL, 0 );
        if( REG_NOERROR != reti )
        {
            //Error print: match failed! 
        }
        else
        {
            result = true;
        }
    }
    regfree( &regex );
    return result;
}

二、正则表达式规则

1. 单字符匹配

元字符	匹配字符
\w	匹配一个字母、数字或下划线
\W	跟\w相反,匹配一个非字母、数字或下划线
\s	匹配一个空格、制表符或换行符
\S	跟\s相反,匹配一个非空格、制表符或换行符
\d	匹配一个数字
\D	跟\d相反,匹配一个非数字
.	匹配除换行符之外的任意字符

举例：
字符串：Hi, 2016!
表达式：\\w\\w\\W\\s\\S\\d.\\D

注意：因为C语言解析字符串时也会区分转义字符'\'，所以我们的正则表达式需要在每个转移字符前再加一个'\'才可以，像"\\w"

2.字符数量匹配

元字符	匹配字符
?	前面的字符不出现或这只出现一次
+	前面的字符至少出现1次
*	前面的字符重复任意多次，包括0次
{3}	前面的字符出现3次
{1,3}	前面的字符至少出现1次，最多出现3次

举例：
字符串：Hi, 20160422!
表达式：\\w{2},\\s2?0+1*\\d{1,5}！

3.字符位置匹配

元字符	匹配字符
^	匹配一行的开始
$	匹配一行的结尾

举例：
字符串：Hi, 20160422!
表达式：^Hi,\\s\\d{8}!$

4.选择匹配

元字符	匹配字符
l	分隔符，用作或匹配
[0-9a-z]	中括号内字符任意匹配其中一个，此处匹配一个数字或者小写字母
[^0-9a-z]	中括号内的`^`为反向匹配字符，此处匹配一个非数字和小写字母
(abc)	固定匹配,把abc作为一个整体来匹配

举例：
字符串：www.123123123e5rt6yDF.com
表达式：\\w{3}\\.(123){3}[5-6e-y]{6}[^5-6e-y]{2}\\s(com|COM)$

三、最后

本文只介绍了正则表达式的一部分匹配规则，大多是常用的，还有些更高级的用法等以后用到了再更新。另外，文中匹配时举的例子都是为了便于理解而举的，实际使用时可以更精简。