SKLEARN

2018-12-19  本文已影响0人  Rainysong

一、NLP:sklearn中fit、fit_transform、transform的区别

fit原义指的是安装、使适合的意思,其实有点train的含义但是和train不同的是,它并不是一个训练的过程,而是一个适配的过程,过程都是定死的,最后只是得到了一个统一的转换的规则模型。

transform:是将数据进行转换,比如数据的归一化和标准化,将测试数据按照训练数据同样的模型进行转换,得到特征向量。

fit_transform:可以看做是fit和transform的结合,如果训练阶段使用fit_transform,则在测试阶段只需要对测试样本进行transform就行了。

例如:

训练阶段:
corpus = _readbunchobj(wordbag_path).contents
tf_vectorizer = CountVectorizer(max_df=0.95,min_df=2,stop_words=stpwrdlst)
tf = tf_vectorizer.fit_transform(corpus)
测试阶段:
contents = _readfile(file_name)
tf = tf_vectorizer.transform([contents])


fit/transform/fit_transform.png fit/transform/fit_transform.png 这个很清楚!!!.png

参考:https://blog.csdn.net/quiet_girl/article/details/72517053
https://blog.csdn.net/blmoistawinde/article/details/80816179

二、SKLEARN数据挖掘

数据挖掘流程(sklearn为红框里的).png

参考:https://www.cnblogs.com/jasonfreak/p/5448462.html

三、TfidfVectorizer()的参数max_df 和 min_df的意思: frequency para.png

vacabulary参数

示例.png

fit_transform怎么输出词汇表和词向量矩阵

tfidf_vec.vocabulary_ & tfidf_matrix_toarray().png

四、kmeans聚类

https://blog.csdn.net/z747795161/article/details/77253254

五、层次聚类(hierarchical cluster)

http://howiedlut.top/Clustering-in-python/

https://stackabuse.com/hierarchical-clustering-with-python-and-scikit-learn/

上一篇 下一篇

猜你喜欢

热点阅读