使用决策树分类器进行花朵分类丨数析学院

2017-07-25  本文已影响22人  Datartisan数据工匠

课程简介

本节课程将以一个机器学习过程为例完整地展示一个基础 Python 数据分析流程,以向大家展示一个典型的数据科学工作流程是怎样的。除了提供代码示例之外,也希望大家能够动手操作。

该 notebook 为公共资源,如果发现任何错误或不足,欢迎随时指出或者提交 pull request 完善 notebook。

所需库

如果你的计算机上没有Python,你可以使用 Anaconda Python distribution 来安装大部分你需要的 Python packages。Anaconda为你提供了一个简单的双击安装程序,方便您使用。

这个 notebook 使用几个 Anaconda Python 发行版标准的 Python packages。我们使用的主要库是:

确保你拥有所需的软件包,使用 conda 安装:
conda install numpy pandas scikit-learn matplotlib seaborn
如果你没有最新版本,conda 可能会要求更新。

目标

这次练习的目的:假装我们成立了一个创建智能手机应用程序的创业公司,该智能手机应用程序可以自动识别智能手机上拍摄的花朵种类。为此我们正在与一个中等规模的数据科学家团队合作构建一部分数据分析流程。

解决方案:创建一个 demo 机器学习模型,模型从花朵(萼片长度,萼片宽度,花瓣长度和花瓣宽度)进行四次测量,并根据这些测量值来识别物种。

11

我们已经从相关领域研究人员获得一个数据集 来开发 demo,其中仅包括三种 Iris flowers 的测量指标:

Iris setosa

22

Iris versicolor

33

Iris virginica

44

我们目前使用 4 项测量指标,数据均由研究人员的手动测量,但是未来将会由图像处理模型自动测量。

注意: 我们使用的数据集是著名的 Iris 数据集 — 包含在这个 notebook — 我稍作修改用于演示。

未完待续:课程内容较多,请复制链接通过电脑学习,获得最佳学习效果。 http://datacademy.io/lesson/152
更多课程和文章尽在微信号:「datartisan数据工匠」

上一篇下一篇

猜你喜欢

热点阅读