使用Python进行文本特征抽取

2019-02-02  本文已影响84人  松鼠的读书笔记

今天分享一篇来自Analytics Vidhya的热文:Ultimate guide to deal with Text Data (using Python) – for Data Scientists & Engineers 。

这篇文章针对文本数据,介绍了不同的特征抽取方式,包括基本的方法到一些比较先进的NLP技术,同时还介绍了文本数据的预处理,以帮助我们抽取到更好的特征。

文章以twitter sentiment dataset为例,使用Python进行特征抽取,主要内容如下所示,具体内容请戳文章链接,我就不一一搬运了。


目录

1. Basic feature extraction using text data

\circ  Number of words

\circ  Number of characters

\circ  Average word length

\circ  Number of stopwords

\circ  Number of special characters

\circ  Number of numerics

\circ  Number of uppercase words

2. Basic Text Pre-processing of text data

\circ  Lower casing

\circ  Punctuation removal

\circ  Stopwords removal

\circ  Frequent words removal

\circ  Rare words removal

\circ  Spelling correction

\circ  Tokenization

\circ  Stemming

\circ  Lemmatization

3. Advance Text Processing

\circ  N-grams

\circ  Term Frequency

\circ  Inverse Document Frequency

\circ  Term Frequency-Inverse Document Frequency (TF-IDF)

\circ  Bag of Words

\circ  Sentiment Analysis

\circ  Word Embedding


上一篇 下一篇

猜你喜欢

热点阅读