数据挖掘任务

2020-02-13  本文已影响0人  从此不迷茫

预测建模

分类:离散

回归:连续


关联分析


聚类分析


异常检测仪



练习题:

1.以下是否是数据挖掘任务。

a.根据性别划分公司的顾客。

否。这是一个简单的数据库查询

b.根据可盈利性划分公司的顾客。

否。这是数学计算,伴随着阈值应用。如果计算顾客购买的的可能性,则是数据挖掘。

c.公司的总销售额。

否。简单的数学计算。

d.根据学生的标识号码对学生数据库排序。

否。这是简单的数据库查询。

e.预测一枚均匀骰子的结果。

否。 既然骰子是均匀的,这就是概率计算。如果不均匀,我们需要从数据中,估计每种可能结果的可能性,那么这就更像是数据挖掘考虑的问题。然而在特定情况下,这种问题长时间以来是数学家要解决的问题,我们不把他考虑成数据挖掘问题。

f.利用历史记录预测某公司未来的股票价格。

是。我们会试图建立一个可预测连续股票价格价值的模型。这是一个简单的数据挖掘领域,即预测建模。我们可以使用回归模型来建模,即使许多领域的研究者们已经发展出了大量技术来预测时间序列。

g.监测病人心率的异常变化。

是。我们会建立一个心率正常变化的模型,当心率出现异常时发出警报。这就是数据挖掘领域中的异常检测。

h.监测地震活动的地震波。

是。这个案例中,我们会建立一个和地震活动相关的不同种地震波变化模型,当其中地震活动被观察到时发出警报。这是数据挖掘领域中的一种----分类。

i.提取声波的频率。

否。这是信号处理。

2.假设你是一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。举例说明如何使用诸如聚类、分类、关联规则挖掘和异常检测等技术,让数据挖掘为公司提供帮助。

举例:

聚类可以通过某个主题的相似性为结果分组,从而使呈现给用户的主题更加简洁,比如报告簇中使用最多的十个单词。

分类可以把结果分配到预定义的类别中,如:"运动","政治",等等。

序列关联分析可以检测特定序列伴随其他特定序列的高可能性,允许更有效率的存储。

异常检测技术可以发现用户流量的不寻常模式,比如某个物品突然变得更加受欢迎。广告可以使用这种技术来调整策略。

3.对于以下数据集,解释数据私有性是否是重要问题。

a.1900-1950年间的人口普查数据。否

b.访问你的web站点的web用户的ip地址和访问次数。是

c.从地球轨道卫星发回的图像。否

d.电话号码簿上的姓名和地址。否

e.从网上收集的姓名和电子邮件地址。否

上一篇 下一篇

猜你喜欢

热点阅读