项目开发技巧编程营地E_C/C++

C语言,也有正则表达式

2016-04-21  本文已影响3991人  字芽

最近在工作中碰到了需要检查日志文件的问题,这就涉及到对日志文件中每条日志的关键字检索,于是我特地学习了下C语言的正则表达式规则,特此跟大家分享。

一、C语言如何使用正则表达式?

C语言使用正则表达式的方法很简单,只需要包含正则表达式头文件即可:
#include<regex.h>

相关函数:

使用时依次调用这些函数即可。其中特别需要提出是regexec()函数的最后一个参数,有如下四种选择:
REG_EXTENDED以功能更加强大的扩展正则表达式的方式进行匹配;
REG_ICASE 匹配字母时忽略大小写;
REG_NOSUB 不用存储匹配后的结果;
REG_NEWLINE 识别换行符号。

一般,我们选择第一个功能更强大的扩展表达式即可。

下面是一个封装这些函数的例子(供参考):

bool matchRegex(const char* pattern, const char* userString)
{
    bool result = false;

    regex_t regex;
    int regexInit = regcomp( &regex, pattern, REG_EXTENDED );
    if( regexInit )
    {
        //Error print : Compile regex failed
    }
    else
    {
        int reti = regexec( &regex, userString, 0, NULL, 0 );
        if( REG_NOERROR != reti )
        {
            //Error print: match failed! 
        }
        else
        {
            result = true;
        }
    }
    regfree( &regex );
    return result;
}

二、正则表达式规则

1. 单字符匹配

元字符 匹配字符
\w 匹配一个字母、数字或下划线
\W 跟\w相反,匹配一个字母、数字或下划线
\s 匹配一个空格、制表符或换行符
\S 跟\s相反,匹配一个空格、制表符或换行符
\d 匹配一个数字
\D 跟\d相反,匹配一个数字
. 匹配除换行符之外的任意字符

举例:
字符串:Hi, 2016!
表达式:\\w\\w\\W\\s\\S\\d.\\D

注意:因为C语言解析字符串时也会区分转义字符'\',所以我们的正则表达式需要在每个转移字符前再加一个'\'才可以,像"\\w"

2.字符数量匹配

元字符 匹配字符
? 前面的字符不出现或这只出现一次
+ 前面的字符至少出现1次
* 前面的字符重复任意多次,包括0次
{3} 前面的字符出现3次
{1,3} 前面的字符至少出现1次,最多出现3次

举例:
字符串:Hi, 20160422!
表达式:\\w{2},\\s2?0+1*\\d{1,5}!

3.字符位置匹配

元字符 匹配字符
^ 匹配一行的开始
$ 匹配一行的结尾

举例:
字符串:Hi, 20160422!
表达式:^Hi,\\s\\d{8}!$

4.选择匹配

元字符 匹配字符
l 分隔符,用作或匹配
[0-9a-z] 中括号内字符任意匹配其中一个,此处匹配一个数字或者小写字母
[^0-9a-z] 中括号内的^为反向匹配字符,此处匹配一个非数字和小写字母
(abc) 固定匹配,把abc作为一个整体来匹配

举例:
字符串:www.123123123e5rt6yDF.com
表达式:\\w{3}\\.(123){3}[5-6e-y]{6}[^5-6e-y]{2}\\s(com|COM)$

三、最后

本文只介绍了正则表达式的一部分匹配规则,大多是常用的,还有些更高级的用法等以后用到了再更新。另外,文中匹配时举的例子都是为了便于理解而举的,实际使用时可以更精简。

上一篇下一篇

猜你喜欢

热点阅读