sklearn的分词方式

2018-01-28 本文已影响0人 thirsd

从sklearn的sklearn.feature_extraction.text提取的分词语法：


def build_tokenizer(doc):

    token_pattern=r"(?u)\b\w\w+\b"

    token_pattern = re.compile(token_pattern)

    return token_pattern.findall(doc)

tokens=build_tokenizer("you like who? who-is-you")

print [tokens]

输出为：
[['you', 'like', 'who', 'who', 'is', 'you']]

热点阅读

早餐里见世界
谏言：全国的扫黑反腐

08-22浅谈对“天津爆炸事故”的看法和感想
07-04元芳你怎么看下一句
07-03陪伴是最长情的告白下一句
01-21你知道fighting是什么意思？告诉你fighting的意思
06-23深度好文：生命的意义不单是幸福
06-20深度好文：人最怕深交后的陌生

sklearn的分词方式

猜你喜欢

热点阅读