正则表达式练习(向前查找、向后查找、贪婪/懒惰型元字符)
2017-09-11 本文已影响0人
香吉矢
向前查找
- 向前查找指定了一个必须匹配但不在结果中返回的模式
- 有些正则表达式文档使用术语“消费”(consume)来表述“匹配和返回文本”的含义。在向前查找里,被匹配的文本不包含在最终返回的匹配结果里,这被称为“不消费”
- 被匹配文本之后的字符(但不消费它)
- 向前查找实际就是一个子表达式
- 一个向前查找模式其实就是一个以?=开头的子表达式,需要匹配的文本跟在=的后面
向后查找
- 向后查找,也就是查找出现在被匹配文本之前的字符(但不消费它),向后查找操作符是?<=。
贪婪型元字符
- 它们在进行匹配时的行为模式是多多益善而不是适可而止的。它们会尽可能地从一段文本的开头一直匹配到这段文本的末尾,而不是从这段文本的开头匹配到碰到第一个匹配时为止
-
https://www.baidu.com/wd
https://music.163.com/#/discover/toplist?id=3778678
https://translate.google.cn/#en/zh-CN/Th
http://www.jianshu.com/u/a05e3c276604
- 要求
以上为我随便从自己的浏览器中粘贴出来的网页地址,需要将其中的域名过滤出来。 - 正则表达式
(?<=//).*?(?=/)
-
分析
1). 首先一步一步分析来看,首先将需要的内容匹配出来,通过分析域名前面有两个斜杠,后边有一个斜杠,则正则表达式如下//.*/
分析1)
出现上图的匹配结果,这里的要求是匹配到域名后的第一个/就停止匹配,但其尽量向行末匹配,遇到最后一个/才停止匹配;因为为贪婪型元字符,需要用到其懒惰型元字符,即?2). 用贪婪型模式来匹配,正则表达式如下
//.*?/
分析2)
3). 要求只匹配域名,所以需要将域名前后的斜杠过滤掉,这里就需要用到向后查找和向前查找以及子表达式;正则表达式如下
(?<=//).*?(?=/)
分析3)
用()将“//”选定为一个子表达式,在//前加上?<=的前缀,表示向后查找,即//只匹配但不“消费”:同理后边的/也是一样的,向前查找/,匹配但不消费。
本文有些内容摘自于
〔美〕Ben Forta. 《正则表达式必知必会 》(图灵程序设计丛书 71) (Kindle位置1974). 人民邮电出版社. Kindle 版本