大数据,机器学习,人工智能架构设计大数据

架构设计04--技术实现02--搭建大数据框架(十分钟学会)

2019-06-14  本文已影响44人  Wales_Kuo

架构设计系列文章,请参见连接。

十分钟让你透彻理解大数据的工作方式。大数据并不是深不可测、高不可攀的技术,这里用18页ppt为你深入的理解大数据,学习大数据做好充分的准备。

结合大数据实际使用与开发流程讲述大数据中方方面面的内容。可以一次完整的了解大数据落地过程中需要考虑的问题,需要解决的问题呈现出一个可以真实,完整,落地的大数据服务平台。

概述

说明大数据分析的意义,并抽象大数据处理过程。以更通用的理解方式说明大数据的特点。

大数据过程

用通俗的语言介绍大数据分析、挖掘过程。

大数据过程

原始的数据是十分杂乱的,在数据经过梳理和清洗,才能够称为信息。信息会包含很多规律,我们需要从信息中将规律总结出来,称为知识(Knowledge),而知识改变命运。有了知识,然后利用这些知识去应用于实战,有的人会做得非常好,这个东西叫做智慧(Intelligence)。

用一种简单的方式说明就是收集来的数据有很多噪音,异常不能直接成为有效信息,进过梳理,过滤,清洗之后形成有用信息。然后在有用的信息中找到某种规律就变成了可以提高认知的知识。然后知识运用到之后的工作中就变成了智慧。

最终的阶段是很多企业都想要的。你看我收集了这么多的数据,能不能基于这些数据来帮我做下一步的决策,改善我的产品。

大数据分析也不是绝对的,有漏洞也有失误,我们不能迷信。虽然大数据分析通常是会凌驾于专家直觉经验之上的,但直觉在选择数据分析之初起着关键性作用。所以,未来我们需要同过直觉、经验、统计数字来做好很多决策。而学好大数据分析,除了那些大的政府决策或者行业、机构决策(医疗改革、影视发行、图书名称等),我们的日常生活也是可以通过这种思维受益的。
统计中所谓的“因果”是“某种”意义的“因果”,即统计学只讨论“原因的结果”,而不讨论“结果的原因”。前者是可以用数据证明或者证伪的;后者是属于科学研究所探索的。用科学哲学家卡尔·波普的话来说,科学知识的积累是“猜想与反驳”的过程:“猜想”结果的原因,再“证伪”原因的结果;如此循环即科学。

大数据分析过程

介绍大数据分析实施过程

大数据分析过程

数据建模

数据建模是大数据分析的核心。它决定了大数据分析的最终效果。

适合分析的业务

大数据能够解决的问题。说明大数据处理问题的特点。


适合分析的业务

大数据分析其实就是对复杂问题进行分析与解决的过程。所以也是使用域这个解决过程的。在大数据分析中每一个步骤都有它自己独立的意义。可以帮助我们了解数据中到底包含了那些意义。每一个步骤都能让我们更深入的了解,深入的认识系统的情况,最终可以根据具体的数字化情况决定下一步的动作。

分析建模技术介绍

大数据分析为我们提供了什么样的方法,来解决问题。

分析建模技术介绍

大数据分析建模技术依赖的还是机器学习,人工智能提供算法。然后才可以对大量的数据进行聚类、分类、回归等等计算。在计算过程中需要对大量数据的访问,分布式计算等才是大数据技术。

要对数据中的特征进行量化或抽取特征需要进行机器学习。对数据进行分类也需要对其进行识别。针对下一阶段可能发生的情况还是需要量化。

数据挖掘建模过程

怎样建立数据挖掘模型。

数据挖掘建模过程

- 目标定义

明确大数据分析目标,并之后针对目标进行分析与建设。


目标定义

对大数据不了解导致看似明确的需求无法落地,所以需要进行引导性需求调研。

- 指标和维度

分析中关注的指标和维度,定义了之后能够分析哪些内容。


指标和维度

分析模型介绍

分析模型的建立过程


分析模型介绍

在建模过程中需要不断的尝试不同的模型,不同的算法,不同的参数。所以,在建模过程中还是需要有不断的迭代的过程。

在整体大数据分析过程中也是一个大迭代。从建模、上线、反馈再到建模。这样才可以根据现实中的业务场景进行不断的调优。

建模过程中需要有训练数据,测试数据和验证数据。验证数据是人工对数据进行分析后的结果。使用分析结果和训练结果进行对比,然后得出模型的的评价情况。

模型评价中包含很多指标。例如:误差率,准确率、精确率、召回率等

建模工具

建模工具

建模实例

介绍大体的建模过程的一个实际例子。


实例

分析实践

具体讲模型推送到、实现到大数据框架中的方法。

分析模型工具

建模后在大数据分析平台上实现模型。


分析模型工具

开源的算法库,模型库。只需要选择合适业务的算法、模型组织出来一套分析模型。并持续优化即可。不需要再自行完成算法的编写工作。很多算法工程师会直接在分析框架上进行建模,并直接进行调优操作。

效果反馈

在大数据分析的建模过程中需要对建模的结果进行评估。模型到线上之后也是需要评估的,因为建模过程中的数据和线上的真实数据是有差异的。并且最终客户的反馈和分析模型的选择可能会有偏差的问题。

大数据分析模型线上评估

大数据分析模型线上评估

技术支持

技术方面就不过多的探讨了,一方面是业界对于大数据方面的书籍,博客都很多了。另一方面作者也会在之后逐步的深入讲解技术部分的内容。

大数据分析技术栈

有很多技术可以实现大数据分析哦~

大数据分析技术栈

OLAP:使分析人员、管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映数据维特性的信息,进行快速、一致、交互地访问,从而获得对数据的更深入了解的一类软件技术。
Data Mining 是通过数学模型发现隐藏的、潜在的规律,以辅助决策。
传统的 BI 主要想实现从宏观到微观、从广度到深度、从定量到定性各种层次的决策分析。大数据同传统 BI 比较,多了一个专门的数据采集阶段,主要是因为数据种类多,数量大,从结构化的数据到非结构化的数据。但是其存储、处理及可视化的思想等都和传统 BI 如出一辙。

大数据技术情况介绍:

大数据质量监控

数据质量决定者分析结果的好坏。


数据质量监控

数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,而体量大、速度快和多样性的特点,决定了大数据质量所需的处理,有别于传统信息治理计划的质量管理方式。

针对大数据平台的运维监控

保证大数据平台的正常运行。


针对大数据平台的运维监控

使用指标监控系统监控大数据平台的整体运行情况。

大数据架构模式

大数据有自身的特点,所以它也有自己的架构模式。

大数据架构模式

以上几种架构为目前数据处理领域使用比较多的几种架构,当然还有非常多其他架构,不过其思想都会或多或少的类似。数据领域和机器学习领域会持续发展,以上几种思想或许终究也会变得过时。

大数据平台

大数据技术平台包含的内容。


大数据平台

- 左侧:

这是一个典型的大数据技术架构,且对架构进行了「分层」,分为「数据源层」、「数据传输层」、「数据存储层」、「编程模型层」和「数据分析层」,如果继续往上走的话,还有「数据可视化层」和「数据应用层」。

- 右侧:

这是一个完整的大数据平台框架。虽然内容没有填写具体的内容,但是它包含了大数据平台的几大基本要素。整体大数据平台所需要的子系统。这些子系统都是为了保证大数据平台能够满足业务需求。保证大数据系统的可用,准确,并能够建立持续流动的模式。

整体规划

平台的整体规划


整体规划

大数据平台的规划是一个历经磨炼、也卓有成效的长期过程。如书中所提到的,阿里巴巴不仅数据量超宇宙级,而且更是因为业务场景的复杂和多元化,其面对着甚至超过 Google 和 Facebook 的更复杂的难题。大部分时候,阿里巴巴都是在无人区艰难跋涉。每一组功能和逻辑,每-套架构与系统,都与业务和场景息息相关。这个黑洞膨胀之快,以至于大部分时候都是在出现痛点从而剌激了架构升级。换言之,大数据系统一一如果我们非要用一个系统去描述的话一一其复杂度之高,是几乎不可能在一开始就完整和完美地进行自上而下定义和设计的。从需求→设计→迭代→一寸大数据之路一一阿里巴巴大数据实践升华为理论,在无数次的迭代进化中,我们对大数据的理解才逐渐成形,慢慢能够在将数据黑洞为我所用的抗争中扳回一局。

这个系统生长和进化的过程实际上已经暗暗揭示了阿里巴巴对大数据真髓的理解。大、快、多样性只是表象,大数据的真正价值在于生命性和生态性。阿里巴巴称之为“活数据”。活数据是全本记录、实时驱动决策和迭代,其价值是随着使用场景和方式动态变化的 。简单地把数据定义为正/负资产都太简单。数据也不是会枯竭的能源。数据可以被重复使用,并在使用中升值;数据与数据链接可能会像核反应一样产生价值的聚变。数据使用和数据聚变又产生新的数据。活数据的基础设施就需要来承载、管理和促进这个生态体的最大价值实现(以及相应的成本最小化)。丰富的数据形式、多样化的参与角色和动机,以及迥异的计算场景都使得这个系统的复杂度无限升级。阿里巴巴的大数据之路就是在深刻理解这种复杂性的基础上,摸索到了一些重要的秩序和原理,并通过技术架构来验证和劳实。

总结

机器学习、人工智能、深度学习等,需要训练集来训练模型和参数,通常都会定义一个损失函数(Loss Function)或能量函数,设定约束条件,然后求解函数的能量最小值,通常需要使用优化求解器,或是根据特定问题自己编程求解。从这个意义上,人工智能、大数据,最终几乎都归结为一个求解能量最小的优化问题,而运筹学正是研究优化理论的学科。因此,我把运筹学/优化理论称为人工智能、大数据的“引擎”。

大数据其实就是为我们建立数据分析与数据存储的平台。算法工程师通过数据标签化,数据分群等操作将数据建立指标和维度进行数学分析得到分析结果的过程。但是就像上面所说的数学是大数据分析的基础,技术是大数据分析的实现手段。

参考:

上一篇下一篇

猜你喜欢

热点阅读