NLP自然语言处理-常用文本抽取的正则表达式

2022-10-15  本文已影响0人  Viterbi

常用文本抽取的正则表达式

抽取email的正则表达式

email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'

emails = re.findall(email_pattern, text, flags=0)

抽取phone_number的正则表达式

cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$'

phoneNumbers = re.findall(cellphone_pattern, text, flags=0)

抽取身份证号的正则表达式

IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'

IDs = re.findall(IDCards_pattern, text, flags=0)

IP地址正则表达式:

(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d

腾讯QQ号正则表达式:

 [1-9]([0-9]{5,11})

国内固话号码正则表达式:

[0-9-()()]{7,18}

用户名正则表达式:

[A-Za-z0-9_\-\u4e00-\u9fa5]+

本文使用 文章同步助手 同步

上一篇 下一篇

猜你喜欢

热点阅读