python的正则表达式

2017-02-18  本文已影响0人  11egnaw

在进行正则表达式的匹配时以下四个语句的区别到底在哪里?

需要匹配的原始文档:

<div class="author clearfix">
<a href="/users/24041432/" target="_blank" rel="nofollow">
![做个被需要的人。](https://img.haomeiwen.com/i4772802/a9e4f303f36042cf.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
</a>
<a href="/users/24041432/" target="_blank" title="做个被需要的人。">
<h2>做个被需要的人。</h2>
</a>
...
<div class="signin-error" id="signin-error"></div>
<button type="submit" id="form-submit" class="form-submit">登录</button>
</form>
</div>
<div class="signin-foot clearfix">
<a rel="nofollow" href="/new4/fetchpass" class="fetch-password">忘记密码?</a>
</div>
</div>
</div>

<div class="float-nav">
<a class="float-nav-backtop" href="#" rel="nofollow">
<span class="float-nav-backtop-icon"></span>
</a>
</div>

<!--[if gte IE 6]>
<script type="text/javascript" src="http://static.qiushibaike.com/js/src/web/json3.js?v=3a7f66a11a09842cd7555fad039657be"></script>
<![endif]-->
<script type="text/javascript" src="http://static.qiushibaike.com/js/dist/web/libs.min.js?v=bc8ddd36f0e7fed7c27f437c17f23ce0"></script>
<script type="text/javascript" src="http://static.qiushibaike.com/js/dist/web/app.min.js?v=9d24424ee8d18d35a0a64362f6e6694a"></script>



<script type="text/javascript">

期望的第二个匹配集合的输出

做个被需要的人。

语句1:

'<div.*?author clearfix">(.*?)<a.*?title="(.*)">'
items = re.findall(pattern, content)
for item in items:
  print item[1]

输出:

做个被需要的人。">
<h2>做个被需要的人。</h2>
</a>
<div class="articleGender manIcon">21</div>
</div>


<input type="hidden" id="hid">
<div id="single-next-link" title="下一条">


<div class="content">
...
<script type="text/javascript

语句2:

'<div.*?author clearfix">(.*?)<a.*?title="(.*)">.*?<h2>'
items = re.findall(pattern, content)
for item in items:
  print item[1]

输出:

做个被需要的人。

语句3:

'<div.*?author clearfix">(.*?)<a.*?title="(.*?)">'
items = re.findall(pattern, content)
for item in items:
  print item[1]

输出:

做个被需要的人。

语句4:

'<div.*?author clearfix">.*?<a.*?title="(.*?)">'
items = re.findall(pattern, content)
for item in items:
  print item[0]

输出:

一些观察和分析

    pattern = re.compile('<div.*?author clearfix">(.*?)<a.*?title="(.*?)">', re.S)
    items = re.findall(pattern, content)
    print items

输出:

[(u'\n', u'\u505a\u4e2a\u88ab\u9700\u8981\u7684\u4eba\u3002')]

由此输出,我们可以看出items包含了两个匹配集合。一个是换行符,一个是一段文本。

pattern = re.compile('<div.*?author clearfix">.*?<a.*?title="(.*?)">', re.S)
    items = re.findall(pattern, content)
    print items

输出

[u'\u505a\u4e2a\u88ab\u9700\u8981\u7684\u4eba\u3002']

由此输出,可以发现items仅仅是我们用括号制定的匹配集合。对于上面的一个例子同样成立。通过观察,我们发现,有一次记录匹配,items中就会多一个item, 而对于每个匹配的item,它内部的元素就是每个匹配集合。

上一篇 下一篇

猜你喜欢

热点阅读