未闻code

让emoji表情变消失

2020-05-28  本文已影响0人  后山小鲨鱼

一日一技:让emoji表情变消失

[未闻Code ]2019-03-15

当我们从微博或者推特上爬下数据以后,里面可能包含了emoji表情。这种表情本书就跟汉字一样是普通的字符,并不是图片。

如果你需要把数据存入MySQL中,这些emoji表情可能会导致插入失败,即时你已经把编码设置为 utf8mb4也不行。

此时,就需要使用正则表达式从字符串中移除emoji表情。

----- image

大部分的emoji表情对应的Unicode码分布在如下4个范围内:

1.  **"\U0001F600-\U0001F64F"**

    **"\U0001F300-\U0001F5FF"** 

2.  **"\U0001F680-\U0001F6FF"** 

3.  **"\U0001F1E0-\U0001F1FF"**

因此可以使用Python正则表达式的 sub方法把emoji去掉。

1.  import re

    text = '不要说话😋,你知道我在想什么😉'

    clear_text=re.sub('["\U0001F600-\U0001F64F\U0001F300-\U0001F5FF\U0001F680-\U0001F6FF\U0001F1E0-\U0001F1FF"]', '', text)

    print(clear_text)

运行效果如图所示

不过需要注意的是,上面这个范围并不完全,例如:🤔 这个表情就无法被过滤。

关注更多精彩

上一篇下一篇

猜你喜欢

热点阅读