php的正则表达式

2016-07-16 本文已影响286人轻舞凋零

php的正则

我们在这里讨论正则，几乎所有编程语言都有的模块。可能语法有点不一样，求解过程不一样，但是大致的规则是类似的。
我们将要讨论三部分

正则的规则基于pcre[正则的基础]
常用的正则[正则的应用]
php中的正则的使用[正则在php中的使用]

正则的语法

官方语法规则

正则表达式的定义

正则表达式(regular expression)描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。

正则表达式的组成

普通字符串
元字符
字符转义
重复
分支
反义
分组
反向引用
捕获和断言规则
贪婪和懒惰
处理选项

下一个本地的测试器，我是mac 我用的传送门

元字符

使用元字符需要转移

. 任意字符
\w 字母数字或者下划线
\s 任意空白符
\d 数字
\b 单词的开始或者结束
^  匹配字符串的开始
$  匹配字符串的结束

重复匹配

* 重复0此或更多次
+ 一次以上
? 0次或者一次
{n} n词
{n,} 
{n,m} n到m词

分支条件

用| 分开，相当于或
分支条件的执行：原因是匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了

分组

用() 包含起来。然后你就可以指定这个子表达式的重复次数了
例如 (\d+){10}

反义

一般是元字符大写

\W  匹配任意不是字母，数字，下划线，汉字的字符
\S  匹配任意不是空白符的字符
\D  匹配任意非数字的字符
\B  匹配不是单词开头或结束的位置
[^x]    匹配除了x以外的任意字符
[^aeiou]    匹配除了aeiou这几个字母以外的任意字符

反向引用

主要用于重复搜索
使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。

捕获和断言规则

捕获  (exp)   匹配exp,并捕获文本到自动命名的组里
(?<name>exp)    匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)
(?:exp) 匹配exp,不捕获匹配的文本，也不给此分组分配组号
零宽断言    (?=exp) 匹配exp前面的位置
    在字符串singing a song 中 使用正则 \w+(?=ing\b) 匹配sing
(?<=exp)    匹配exp后面的位置
    在字符串singing a song 中 使用正则 \w+(?<=\bsing) 匹配ing
(?!exp) 匹配后面跟的不是exp的位置
    \d{3}(?!\d)匹配三位数字，但是后面不能是数字
(?<!exp)    匹配前面不是exp的位置
    (?<!\d+)[a-z]+匹配前面不是数字的
注释  (?#comment) 这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读

贪婪与懒惰

默认是贪婪的

懒惰的语法的实现

*?  重复任意次，但尽可能少重复
+?  重复1次或更多次，但尽可能少重复
??  重复0次或1次，但尽可能少重复
{n,m}?  重复n到m次，但尽可能少重复
{n,}?   重复n次以上，但尽可能少重复

处理选项

常用的模式

IgnoreCase(忽略大小写)   匹配时不区分大小写。
Multiline(多行模式) 更改^和$的含义，使它们分别在任意一行的行首和行尾匹配，而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置.)
Singleline(单行模式)    更改.的含义，使它与每一个字符匹配（包括换行符\n）。
IgnorePatternWhitespace(忽略空白)   忽略表达式中的非转义空白并启用由#标记的注释。
ExplicitCapture(显式捕获)   仅捕获已被显式命名的组。

php正则表达式的模式

i 忽略大小写模式 #[a-z]#i
m 多行模式 #^t.*#mi
s 点号通配模式 点号可以匹配换行符
U 表示懒惰模式
u 支持UTF-8模式
D 支持结尾模式

编写正则表达式

 与直接写  或| 非 ^
 使用元字符，分组规则，量词，组合在一起便构成了基本的正则表达式。

符号优先级

\
() (?:) (?=) []
* + {n} {n,m}
^ $
|

正则表达式的优化

这些优化是前人的经验
    使用{a-z}代替[a|b|c|d]，类似的风格
    最左匹配
    标准量词是匹配优化
    谨慎使用.*这样的表达式
    尽量使用字符串函数替换处理
    合理使用括号表达式，可以考虑使用方向引用
    优化起始点,行描点优化
    对大而全的表达式进行拆分
    注意量词转换的效率差异
    可以使用其他的解决方案代替正则
        1 字符串处理函数   
        2 filter系列如果是过滤的话
        3 xpath的方案

常用的正则表达式

匹配数字 (\d+)

匹配汉字 ^[\u4e00-\u9fa5]{0,}$

中文、英文、数字但不包括下划线等符号：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

邮箱匹配

^\w+([_.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

身份证号

^\d{15}|\d{18}$

账号的合法性

^[a-zA-Z][a-zA-Z0-9_]{4,15}$

日期格式
^\d{4}-\d{1,2}-\d{1,2}$
一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])$
一个月的31天(01～09和1～31)：^(0?[1-9]|((1|2)[0-9])|30|31)$

html正则标记
<(\S?)[^>]>.?</\1>|<.? />

<(\S*?)[^>]*>.*?</\1>|<.*? />

php常用的正则函数

php函数介绍
preg_*系列
目前主要用到的preg_match preg_replace preg_math_all