python 正则匹配获取括号内字符

2020-04-04 本文已影响0人 5702c3d2ab8e

一、需求

* 提取字典中的【】内的字符，生成可以导入到五笔词库中的txt文件。

原文件：

生成后的结果：

实现方式

前言

因为正则表达式语法很难读，因此本次程序以多次的方式来讲解。

一、提取【】内内容

import re

with open("XDHYCD7th.txt","r",encoding="utf-8") as f:

text = f.read()

words = re.findall("【.+】", text)

括号中的 . 表示一个字符的通配符，可以用来表示任意字符。

+表示字符数量，数量为一个以上

【.+】表示匹配所有括号内的字符，括号内字符至少有一个或以上。比如【啊】或者【阿公】就会被匹配进去，而【】就不会被匹配进去

效果：

二、去除【】号

只要用()把你想要的部分框起来就可以。比如【(匹配的字符)】，最后出现的就是匹配的字符

代码：

import re

with open("XDHYCD7th.txt","r",encoding="utf-8") as f:

text = f.read()

words = re.findall("【(.+)】", text)

【.+】 =》【(.+)】

效果：

三、懒惰匹配

最后结果如上，红框里面有哪里不对？查看原文：

【阿兰若】ālánrě〈名〉见809页【兰若】。

原来【阿兰若】的前括号和【兰若】的后括号匹配了。这是因为这里使用的是贪婪模式，换句话说，

【1】【2】匹配出来的不会是 1 2 两个字符，而是： 1】【2

我们要把它改成懒惰模式：

代码：

import re

with open("XDHYCD7th.txt","r",encoding="utf-8") as f:

text = f.read()

words = re.findall("【(.+?)】", text)

【(.+)】=》【(.+?)】

那个问号表示的就是懒惰模式

python 正则匹配获取括号内字符

一、需求

原文件：

实现方式

前言

一、提取【】内内容

效果：

二、去除【】号

代码：

三、懒惰匹配

代码：

结果：

猜你喜欢

热点阅读

python 正则匹配 获取括号内字符

一、需求

原文件：

实现方式

前言

一、提取【】内内容

效果：

二、去除【】号

代码：

三、懒惰匹配

代码：

结果：

猜你喜欢

热点阅读

python 正则匹配获取括号内字符