数据仓库快速入门教程17数据挖掘
什么是数据挖掘?
数据挖掘正在寻找大型数据集中隐藏的,有效的和可能有用的模式。数据挖掘就是要发现数据中未经预料/以前未知的关系。
它是一门多学科的技能,使用机器学习,统计,AI和数据库技术。
通过数据挖掘获得的见解可用于营销,欺诈检测和科学发现等。
数据挖掘也称为知识发现,知识提取,数据/模式分析,信息收集等。
数据类型
可以对以下类型的数据执行数据挖掘
- 关系数据库
- 数据仓库
- 高级数据库和信息存储库
- 面向对象和对象关系数据库
- 事务和空间数据库
- 异构和遗留数据库
- 多媒体和流数据库
- 文本数据库
- 文本挖掘和Web挖掘
数据挖掘实施过程
image.png业务理解:在此阶段,建立业务和数据挖掘目标。
- 首先,您需要了解业务和客户目标。你需要定义你的客户想要的东西(很多次甚至他们都不知道自己)
- 评估当前的数据挖掘方案。将资源,假设,约束和其他重要因素考虑在您的评估中。
- 使用业务目标和当前方案,定义数据挖掘目标。
- 良好的数据挖掘计划,应该开发以实现业务和数据挖掘目标。
数据理解:
在此阶段,执行数据健全性检查以检查其是否适合数据挖掘目标。
- 首先,从组织中可用的多个数据源收集数据。
- 这些数据源可能包括多个数据库,flat文件管理器或数据立方体。在数据集成过程中可能会出现对象匹配和架构集成等问题。这是一个非常复杂和棘手的过程,因为来自各种来源的数据不太容易匹配。例如,表A包含名为cust_no的实体,而另一个表B包含名为cust-id的实体。
- 因此,很难确保这两个给定对象都指向相同的值。在这里,元数据应该用于减少数据集成过程中的错误。
- 接下来,该步骤是搜索所获取数据的属性。探索数据的一种好方法是使用查询,报告和可视化工具回答数据挖掘问题(在业务阶段决定)。
- 根据查询结果,应确定数据质量。如果有任何缺失数据,则应获取。
数据准备:
在此阶段,数据已准备就绪。数据准备过程大约占项目时间的90%。应选择,清理,转换,格式化,匿名化和构建来自不同来源的数据(如果需要)。数据清理是通过平滑噪声数据并填充缺失值来“清理”数据的过程。例如,对于客户人口统计资料配置文件,缺少年龄数据。数据不完整,应填写。在某些情况下,可能存在数据异常值。例如,年龄的值为300.数据可能不一致。例如,客户的名称在不同的表中是不同的。
数据转换:
数据转换操作将有助于挖掘过程的成功。
- 平滑:它有助于消除数据中的噪音。
- 聚合:摘要或聚合操作应用于数据。即,汇总每周销售数据以计算月度和年度总量。
- 泛化:在此步骤中,在概念层次结构的帮助下,低级数据被更高级别的概念所取代。例如,该城市由该县取代。
- 规范化:在按比例缩小属性数据时执行规范化。示例:数据应在归一化后的-2.0到2.0范围内。
- 属性构造:构造这些属性并包含有助于数据挖掘的给定属性集。
此过程的结果是可用于建模的最终数据集。
建模
在此阶段,数学模型用于确定数据模式。
- 根据业务目标,应为准备好的数据集选择合适的建模技术。
- 创建一个方案来测试检查模型的质量和有效性。
- 在准备好的数据集上运行模型。
- 所有利益相关方都应评估结果,以确保模型能够满足数据挖掘目标。
评估:
在此阶段,根据业务目标评估已识别的模式。
- 应根据业务目标评估数据挖掘模型生成的结果。
- 获得业务理解是一个反复的过程。事实上,在理解的同时,由于数据挖掘可能会引发新的业务需求。
- 在部署阶段采取行动或不行动决定移动模型。
部署:
在部署阶段,您将数据挖掘发现发送到日常业务操作。
- 对于非技术利益相关者而言,应使数据挖掘过程中发现的知识或信息易于理解。
- 创建了用于数据挖掘发现的运输,维护和监视的详细部署计划。
- 最后的项目报告是根据项目中的经验教训和关键经验创建的。这有助于改善组织的业务策略。
数据挖掘技术
image.png- 分类
此分析用于检索有关数据和元数据的重要且相关的信息。此数据挖掘方法有助于对不同类中的数据进行分类。
- 聚类:
聚类分析是一种数据挖掘技术,用于识别彼此相似的数据。此过程有助于理解数据之间的差异和相似之处。
- 回归:
回归分析是识别和分析变量之间关系的数据挖掘方法。在存在其他变量的情况下,它用于识别特定变量的可能性。
- 关联规则:
此数据挖掘技术有助于找到两个或多个项目之间的关联。它发现数据集中的隐藏模式。
- 外部检测:
这种类型的数据挖掘技术是指观察数据集中与预期模式或预期行为不匹配的数据项。该技术可用于各种领域,例如入侵,检测,欺诈或故障检测等。外部检测也称为异常值分析或异常值挖掘。
- 顺序模式:
这种数据挖掘技术有助于在特定时期内发现或识别交易数据中的类似模式或趋势。
- 预测:
预测使用了其他数据挖掘技术的组合,如趋势,顺序模式,聚类,分类等。它以正确的顺序分析过去的事件或实例,以预测未来事件。
数据挖掘实施面临的挑战:
- 需要熟练的专家来制定数据挖掘查询。
- 过度拟合:由于训练数据库规模较小,模型可能不适合未来的状态。
- 数据挖掘需要大型数据库,有时难以管理
- 可能需要修改业务实践以确定使用未覆盖的信息。
- 如果数据集不是多样的,则数据挖掘结果可能不准确。
- 异构数据库和全球信息系统所需的集成信息可能很复杂
参考资料
- python测试开发项目实战-目录
- python工具书籍下载-持续更新
- python 3.7极速入门教程 - 目录
- 讨论qq群630011153 144081101
- 原文地址
- 本文涉及的python测试开发库 谢谢点赞!
- 本文相关海量书籍下载
- https://www.tutorialspoint.com/sqoop/sqoop_installation.htm
- https://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html
- https://www.softwaretestinghelp.com/top-4-etl-testing-tools/
数据挖掘示例:
- 例1:
考虑一下电信服务营销负责人提供谁想要增加长途服务的收入。为了在销售和营销方面获得高投资回报率,客户分析非常重要。他拥有庞大的客户信息数据库,如年龄,性别,收入,信用记录等。但无法确定喜欢长途电话和人工分析的人的特征。使用数据挖掘技术,他可以发现高速长途呼叫用户与其特征之间的模式。
例如,他可能会了解到他最好的顾客是年龄在45到54岁之间的已婚女性,每年的收入超过80,000美元。营销工作可以针对这样的人口统计。
- 例2:
一家银行希望寻找新的方法来增加其信用卡业务的收入。如果费用减半,他们想检查使用量是否会增加一倍。
银行有多年的平均信用卡余额,付款金额,信用额度使用和其他关键参数的记录。他们创建了一个模型来检查拟议的新业务策略的影响。数据结果显示,对于目标客户群,削减一半的费用可能会使收入增加1000万美元。
数据挖掘工具
以下是工业中广泛使用的两种流行的数据挖掘工具
Python-语言:
Python语言是统计计算和图形的开源工具。 Python具有各种统计,经典统计检验,时间序列分析,分类和图形技术。它提供有效的数据处理和存储设施。R也有类似的功能,但是日渐衰微。
Oracle Data Mining普遍认为ODM是Oracle Advanced Analytics Database的一个模块。此数据挖掘工具允许数据分析人员生成详细的见解并进行预测。它有助于预测客户行为,开发客户档案,识别交叉销售机会。
数据挖掘的好处:
- 数据挖掘技术可帮助公司获取基于知识的信息。
- 数据挖掘可帮助组织在运营和生产中进行有利可图的调整。
- 与其他统计数据应用相比,数据挖掘是一种经济高效的解决方案。
- 数据挖掘有助于决策过程。
- 促进趋势和行为的自动预测以及隐藏模式的自动发现。
- 它可以在新系统以及现有平台中实现
- 这是一个快速的过程,使用户可以在更短的时间内轻松分析大量数据。
数据挖掘的缺点
- 公司有可能将其客户的有用信息出售给其他公司以获取资金。例如,美国运通已将其客户的信用卡购买出售给其他公司。
- 许多数据挖掘分析软件难以操作,需要提前进行培训才能开展工作。
- 由于设计中采用了不同的算法,不同的数据挖掘工具以不同的方式工作。因此,选择正确的数据挖掘工具是一项非常艰巨的任务。
- 数据挖掘技术不准确,因此在某些情况下会导致严重后果。
数据挖掘应用
- 通信:数据挖掘技术用于通信领域,以预测客户行为,以提供高度针对性和相关的活动。
- 保险:数据挖掘可以帮助保险公司为其产品定价,从而为新客户或现有客户提供新的优惠。
- 教育:数据挖掘有利于教育工作者访问学生数据,预测成绩水平,并找到需要额外关注的学生或学生群体。例如,数学科目较弱的学生。
- 制造:在数据挖掘的帮助下,制造商可以预测生产资产的磨损。他们可以预期维护,帮助他们减少维护,最大限度地减少停机时间。
- 银行:数据挖掘有助于金融部门了解市场风险并管理合规性。它帮助银行识别可能的违约者,以决定是否发行信用卡,贷款等。
- 零售:数据挖掘技术可帮助零售商场和杂货店识别和安排大多数可销售物品,使其处于最贴心的位置。它可以帮助商店所有者提出鼓励客户增加支出的优惠。
- 服务提供商:移动电话和公用事业等服务提供商使用数据挖掘来预测客户离开公司的原因。他们分析账单明细,客户服务互动,对公司的投诉,为每个客户分配概率分数并提供激励。
- 电子商务:电子商务网站使用数据挖掘通过其网站提供交叉销售和向上销售。其中一个最着名的名字是亚马逊,他们使用数据挖掘技术吸引更多客户进入他们的电子商务商店。
- 超市:数据挖掘允许超市的开发规则来预测他们的购物者是否可能期待。通过评估他们的购买模式,他们可以找到最有可能怀孕的女性顾客。他们可以开始针对婴儿爽身粉,婴儿用品店,尿布等产品。
- 犯罪调查:数据挖掘帮助犯罪调查机构部署警察劳动力(哪里是最有可能发生的犯罪?何时?),谁在边境口岸搜索等。
- 生物信息学:数据挖掘有助于从生物学和医学中收集的大量数据集中挖掘生物数据。
小结
- 数据挖掘就是解释过去和预测未来。
- 数据挖掘有助于从大量数据中提取信息。它是从数据中挖掘知识的过程。
- 数据挖掘过程包括业务理解,数据理解,数据准备,建模,演化,部署。
- 重要数据挖掘技术包括分类,聚类,回归,关联规则,外部检测,顺序模式和预测
- Python语言和Oracle数据挖掘是著名的数据挖掘工具。
- 数据挖掘技术可帮助公司获取基于知识的信息。
- 数据挖掘的主要缺点是许多分析软件难以操作,需要进行高级培训才能开展工作。
- 数据挖掘用于各种行业,如通信,保险,教育,制造,银行,零售,服务提供商,电子商务,超市生物信息学。