Weka在数据挖掘中的运用 01 绪论
2020-09-24 本文已影响0人
jenye_
引例
假如你正在商店购物,收音机记录下了你买的每一件东西,然后柜员说办vip能够有折扣,你提供了姓名和住址。超市间接得到了你以及诸多顾客的个人信息。谁都希望少花钱,今天得到了折扣,是因为上周商家给你发放了优惠劵。因为打折,你会买下一些平常不会买的东西。下周商家会再给你发更多的优惠卷,而去就会去购物去买更多的东西。其实商家再做实验,超市想知道如果价格稍微降一些,你会买多少东西,这些优惠卷只是一种个性化定价的手段。超市掌握了众多顾客的数据,就可以知道不同促销策略的实际效果。
Everybody win:你既得到了优惠,商家也卖出了更多的货物。
例二
假设一堆夫妻想要一个孩子,但是却怀不上,所以通过人工授精,可以从女性的卵巢中提取卵子然后使卵子与伴侣或者捐精者的精子结合。然后选择合适的受精卵植入子宫。现在希望选择那些成活率高的受精卵,却不希望同时生出太多的婴儿。胚胎学家掌握了各种受精卵的数据。针对每个受精卵,他们都要记录50到100条数据。而且还存储了存活的受精卵的历史数据。
Data Mning:侧重应用
Machine Learning:侧重算法
我们要使用机器学习中的算法来实现数据挖掘的目的。
What is Weka?
Data Mining
- Using data to make predictions.
Weka
- Open source software tool
- Develped at The University of Waikato.
Weka: 一个用于数据挖掘的开源工具包(Tool kit)。
- 使用Weka不需要使用编程语言语言。
- Weka 可以在windows,Mac 和 linux上都可以运行。
Weka的功能
- 数据分类
- 数据预处理
- 特性选择
- 聚类分析
- 相关性分析
等大量经典算法,功能全面,而且是免费开源的软件。
接下来我们将学习到:
- 数据导入
- 预处理
- 可视化分析
- 分类算法的应用
- 解释结果以及评估方法
最终目的是能够应用Weka分析自己的数据,最重要的是理解自己所作的事。