NLP自然语言处理-常用文本抽取的正则表达式
2022-10-15 本文已影响0人
Viterbi
常用文本抽取的正则表达式
- https://github.com/fighting41love/cocoNLP
抽取email的正则表达式
email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'
emails = re.findall(email_pattern, text, flags=0)
抽取phone_number的正则表达式
cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$'
phoneNumbers = re.findall(cellphone_pattern, text, flags=0)
抽取身份证号的正则表达式
IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'
IDs = re.findall(IDCards_pattern, text, flags=0)
IP地址正则表达式:
(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d
腾讯QQ号正则表达式:
[1-9]([0-9]{5,11})
国内固话号码正则表达式:
[0-9-()()]{7,18}
用户名正则表达式:
[A-Za-z0-9_\-\u4e00-\u9fa5]+
本文使用 文章同步助手 同步