Data preparation

2020-07-01  本文已影响0人  瑶瑶_2930
image.png
很好的UCI数据集使用指南
三个UCI数据集整理代码资源下载链接
148个整理好的UCI数据集及代码下载链接
如果有需要的时候可以去看看有没有合适的
UCI下载的数据集都需要自己转换成其他格式,显得有点乱,可以去kaggle上找找有没有同名的数据集,是整理好了的
csv.文件 (逗号分隔值文件格式)

Useful functions

Analyze the following code
categorical_feature_names = list(set(feature_names) - set(numeric_feature_names) - set([LABEL]))
feature_names is list type.
因此是从feature_namesz中减去numeric_feature_names再减去label。然后转换为原来的list

set()

Use Pandas to inspect the data and manually curate a list of numeric_feature_names and categorical_feature_names

image.png

把字符串的和数字的分开
尽管csv文件中是数字,但好像还是字符串的数字,所以需要转变一下

for feature_name in numeric_feature_names + [LABEL]:
  car_data[feature_name] = pd.to_numeric(car_data[feature_name], errors='coerce')

这也是一个很好的学习资料
鸢尾花分类

有一些函数看得不是很懂,以及一些架构,希望后面好好看看

Normalization

image.png

Add categorical data and numerical data

See my github

上一篇 下一篇

猜你喜欢

热点阅读