python数据分析人工智能机器学习软件测试Python专家之路程序员

数据仓库快速入门教程17数据挖掘

2019-07-04  本文已影响12人  python测试开发

什么是数据挖掘?

数据挖掘正在寻找大型数据集中隐藏的,有效的和可能有用的模式。数据挖掘就是要发现数据中未经预料/以前未知的关系。

它是一门多学科的技能,使用机器学习,统计,AI和数据库技术。

通过数据挖掘获得的见解可用于营销,欺诈检测和科学发现等。

数据挖掘也称为知识发现,知识提取,数据/模式分析,信息收集等。

数据类型

可以对以下类型的数据执行数据挖掘

数据挖掘实施过程

image.png

业务理解:在此阶段,建立业务和数据挖掘目标。

数据理解:

在此阶段,执行数据健全性检查以检查其是否适合数据挖掘目标。

数据准备:

在此阶段,数据已准备就绪。数据准备过程大约占项目时间的90%。应选择,清理,转换,格式化,匿名化和构建来自不同来源的数据(如果需要)。数据清理是通过平滑噪声数据并填充缺失值来“清理”数据的过程。例如,对于客户人口统计资料配置文件,缺少年龄数据。数据不完整,应填写。在某些情况下,可能存在数据异常值。例如,年龄的值为300.数据可能不一致。例如,客户的名称在不同的表中是不同的。

数据转换:
数据转换操作将有助于挖掘过程的成功。

此过程的结果是可用于建模的最终数据集。

建模

在此阶段,数学模型用于确定数据模式。

评估:

在此阶段,根据业务目标评估已识别的模式。

部署:

在部署阶段,您将数据挖掘发现发送到日常业务操作。

数据挖掘技术

image.png

此分析用于检索有关数据和元数据的重要且相关的信息。此数据挖掘方法有助于对不同类中的数据进行分类。

聚类分析是一种数据挖掘技术,用于识别彼此相似的数据。此过程有助于理解数据之间的差异和相似之处。

回归分析是识别和分析变量之间关系的数据挖掘方法。在存在其他变量的情况下,它用于识别特定变量的可能性。

此数据挖掘技术有助于找到两个或多个项目之间的关联。它发现数据集中的隐藏模式。

这种类型的数据挖掘技术是指观察数据集中与预期模式或预期行为不匹配的数据项。该技术可用于各种领域,例如入侵,检测,欺诈或故障检测等。外部检测也称为异常值分析或异常值挖掘。

这种数据挖掘技术有助于在特定时期内发现或识别交易数据中的类似模式或趋势。

预测使用了其他数据挖掘技术的组合,如趋势,顺序模式,聚类,分类等。它以正确的顺序分析过去的事件或实例,以预测未来事件。

数据挖掘实施面临的挑战:

参考资料

数据挖掘示例:

考虑一下电信服务营销负责人提供谁想要增加长途服务的收入。为了在销售和营销方面获得高投资回报率,客户分析非常重要。他拥有庞大的客户信息数据库,如年龄,性别,收入,信用记录等。但无法确定喜欢长途电话和人工分析的人的特征。使用数据挖掘技术,他可以发现高速长途呼叫用户与其特征之间的模式。

例如,他可能会了解到他最好的顾客是年龄在45到54岁之间的已婚女性,每年的收入超过80,000美元。营销工作可以针对这样的人口统计。

一家银行希望寻找新的方法来增加其信用卡业务的收入。如果费用减半,他们想检查使用量是否会增加一倍。

银行有多年的平均信用卡余额,付款金额,信用额度使用和其他关键参数的记录。他们创建了一个模型来检查拟议的新业务策略的影响。数据结果显示,对于目标客户群,削减一半的费用可能会使收入增加1000万美元。

数据挖掘工具

以下是工业中广泛使用的两种流行的数据挖掘工具

Python-语言:

Python语言是统计计算和图形的开源工具。 Python具有各种统计,经典统计检验,时间序列分析,分类和图形技术。它提供有效的数据处理和存储设施。R也有类似的功能,但是日渐衰微。

Oracle Data Mining普遍认为ODM是Or​​acle Advanced Analytics Database的一个模块。此数据挖掘工具允许数据分析人员生成详细的见解并进行预测。它有助于预测客户行为,开发客户档案,识别交叉销售机会。

数据挖掘的好处:

数据挖掘的缺点

数据挖掘应用

小结

上一篇下一篇

猜你喜欢

热点阅读