NLP 文本预处理utils

2020-09-22  本文已影响0人  lzhenboy

1、中文标点

zh_punc = "!?。"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏."

2、strip() 的正则表达式版本

def re_strip(text, param=' '):
    pattern = re.compile(r'^([' + str(param) + r']*)(.*?)([' + str(param) + ']*)$')
    rst = pattern.search(text)
    return rst.group(2) if result else None

示例:
去除字符串首尾的中文标点

text = ';我爱中国'
cleaned_text = re_strip(text, zh_punc)
print(cleaned_text)

`cleaned text:  我爱中国`

参考文献

https://blog.csdn.net/dongyu1703/article/details/81782081

上一篇下一篇

猜你喜欢

热点阅读