数据分析的要点都有哪些

2019-03-07  本文已影响32人  d390347c4084

为了更好的掌握数据分析技术,我们需要对数据分析应用方式有一个全面的认识,下面我们就一起来了解一下,数据分析的要点都有哪些。

热点1:在更高的语义理解水平上进行分析

为了更加智能地分析数据,需要对数据有更加丰富的语义理解。与知识图谱 (Knowledge Base) 不同,虽然数据分析中常用的关系数据模型也是对实体和关系的建模,但是关系数据模型的建模是为查询和存储性能而优化的,往往丢失了大量语义信息。如何引入领域知识和常识型知识对于更好地理解数据至关重要。

如何从表格数据和其他容易获得的文本数据 (如web网页) 中自动获取语义信息来增强和丰富表格数据是一个需要研究的重要方向。比如,确定表格中行或列的实体类型 (包括人名、地名、机构名等命名实体以及时间、地址、货币等数据类型)。表格往往不具有文本中的丰富的上下文信息,因此表格中的实体识别不同于其他自然语言处理任务中的实体识别,十分具有挑战性。除了处理实体识别外,数据表格中实体关系的挖掘和分析也至关重要。充分挖掘实体之间的关联关系可以完成一些实体类型的推荐和回答数据分析的问题。

热点2:构造通用知识和模型的框架

人类对知识和方法能够举一反三,触类旁通。具体到数据分析领域,分析中用到的知识和模型需要在不同数据对象和分析任务之间共享和迁移。在机器学习领域,已经有很多相关工作,也提出了一些方法,比如迁移学习、多任务学习、预学习模型等等。要实现这个“举一反三”的目标,除了需要深入研究具体的机器学习算法,也需要从模型和知识的框架体系来思考,研究适合数据分析领域的通用知识和模型的原语体系,以及知识和模型的迁移共享的统一框架。

热点3:建立高质量的训练数据集和基准测试数据集

由于训练数据的缺乏,人工智能、深度学习等技术在数据智能领域的进一步应用遇到了很大的困难。正如ImageNet数据对于计算机视觉领域的研究起到了显著的推动作用一样,数据智能领域的研究也亟需建立起一整套公用的大规模、高质量的训练数据集和基准测试数据集。一旦有了丰富的训练数据,数据智能领域的很多研究,诸如自动分析、自然语言交互、可视化推荐等等,将会取得突破性的进展。

热点4:提供具有可解释性的分析结果

用户将不再满足于仅仅依赖黑盒式的智能、端到端地作用于整个任务,而需要更细粒度的、有针对性的、更透明的数据智能。例如,数据智能用于财务审计系统中,准确推荐有风险的交易记录进行优先审查,以达到在小化系统风险的前提下,大化审计效率。在这类系统的研发中,需要构建可理解性强的模型。在推荐高风险交易记录的同时,尽量提供系统是依据哪部分信息、通过怎样的逻辑判断这是一条高风险交易的相关依据。这与过去通常使用的黑盒技术路线有了明显的变化,将成为今后技术发展的一个趋势。

【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!

上一篇 下一篇

猜你喜欢

热点阅读