NLP 文本预处理utils
2020-09-22 本文已影响0人
lzhenboy
1、中文标点
zh_punc = "!?。"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏."
2、strip() 的正则表达式版本
def re_strip(text, param=' '):
pattern = re.compile(r'^([' + str(param) + r']*)(.*?)([' + str(param) + ']*)$')
rst = pattern.search(text)
return rst.group(2) if result else None
示例:
去除字符串首尾的中文标点
text = ';我爱中国'
cleaned_text = re_strip(text, zh_punc)
print(cleaned_text)
`cleaned text: 我爱中国`