机器学习

2020-03-21

2020-03-22  本文已影响0人  陆寒晨

机器学习步骤

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris_dataset = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_dataset.data, iris_dataset.target, test_size=0.2, random_state=0)

import pandas as pd

iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names) # 创建鸢尾花数据集,指定特征名称为列名

grr = pd.plotting.scatter_matrix(iris_dataframe,c=y_train,figsize=(15,15),marker='o',hist_kwds={'bins':20},s=60,alpha=.8)
散点图.png

pandas.plotting模块

andrews_curves(frame, class_column[, ax, …]): 生成一个matplotlib画的调和曲线,用于可视化多变量数据集群【Andrews曲线将每个样本的属性值转化为傅里叶序列的系数来创建曲线。通过将每一类曲线标成不同颜色可以可视化聚类数据,属于相同类别的样本的曲线通常更加接近并构成了更大的结构】;
autocorrelation_plot(series[, ax]):时间序列的自相关图;
bootstrap_plot(series[, fig, size, samples]):Bootstrap plot on mean, median and mid-range statistics.
boxplot(data[, column, by, ax, fontsize, …]):对DataFrame列的盒装画图方式;
deregister_matplotlib_converters():去掉pandas的格式和转换;
lag_plot(series[, lag, ax]):为时间序列的Lag plot;
parallel_coordinates(frame, class_column[, …]):平行坐标绘图;
plot_params:存储pandas的绘图方式;
radviz(frame, class_column[, ax, color, …]):在2D上绘制高维数据集;
register_matplotlib_converters():在matplotlib中注册pandas的格式和转换;
scatter_matrix(frame[, alpha, figsize, ax, …]):绘制矩阵型的散点图;
table(ax, data[, rowLabels, colLabels]):转换Dataframe和Series到matplotlibtable的帮助函数。

小知识
Andrews curves:调和曲线,由Andrews于1972年提出,因此又叫Andrews plots或Andrews curve,是将多元数据以二维曲线展现的一种统计图,常用于表示多元数据的结构。
Bootstrap:统计学上一种非常有用的非参数估计方法,实质上是对观测信息进行有放回的再抽样,重复的统计总体的分布情况。
数据可视化https://www.jianshu.com/p/3bb2cc453df1

上一篇 下一篇

猜你喜欢

热点阅读