专访宜信AI中台团队负责人王东:智慧金融时代,大数据和AI如何为
前言:宜信技术人物专访是宜信技术学院推出的系列性专题,我们邀请软件研发行业的优秀技术人,分享自己在软件研发领域的实践经验和前瞻性观点。
第一期专访我们邀请到宜信科技中心AI中台负责人王东老师,从大数据和AI赋能金融业务的角度,分享了中台、大数据、AI等软件研发趋势为业务赋能的经验与思路。
王东老师从技术视角到业务视角,在中台的落地契机、AI与大数据关系、AI和大数据技术的落地等方面提出了自己的看法。
记者:很多人将金融行业的发展划分为三个阶段:信息金融时代,主要指银行卡的出现,银行开始做集中的数据管理;互联网金融时代,互联网的发展,使得用户可以通过PC和APP办理金融业务,这一阶段金融机构通过数据平台管理和使用数据;智慧金融时代,也就是现在,金融机构通过大数据和AI技术让金融服务智能化。
作为有多年金融行业经验的大数据专家,您认为在这3个阶段里,数据为金融服务赋能的方式出现了哪些变化?分别有哪些典型的产品化表现?
王东:按照DIKW体系, 这三个阶段对应的是数据电子化、数据信息化、数据知识化和数据智能化的过程。
信息金融时代,金融机构都在进行金融基础设施建设,数据被集中化管理,金融机构从手工劳动和纸质单据中解放出来,提高效率,本质上这是电子化、信息化的一个过程,金融机构的数据进行结构化和梳理,并被分析和使用。这个阶段数据仓库和数据集市的理论体系诞生并得到完善,基于数仓理论体系的软件工具发布,数据的BI分析(使用ETL、建立数据仓库、OLAP分析和可视化报表)在金融机构中最先开始落地并产生价值,基于数据的早期信用卡风控模型开始建立并投入使用。
互联网金融时代,是数据爆炸的时代,云计算和大数据技术兴起,金融机构面临业务变化快、大数据量、高并发量等各种不同需求的冲击,前端业务系统进行大规模改造以适应大数据的冲击。数据层面上,企业的数据量已经变得非常庞大,业务变化也非常快,传统的报表迭代速度慢,需要排期,无法满足金融机构的数据分析需求。大数据理论和大数据分布式平台蓬勃发展,基于大数据平台的相关技术让敏捷式报表的概念逐渐成为可能,数据实时化、自助化深入人心。BI的流程已经大幅缩短,在金融机构的决策中被广泛使用。大数据技术、机器学习等技术在金融领域的引用,催生了大数据风控技术、反欺诈分析、精准营销和个性化推荐、销售渠道优化&产品服务优化、舆情分析等智能应用。
- 智慧金融时代,是数据知识化和智能化的高级阶段,大数据和AI能力重塑和改造金融服务,创造业务,降低成本,提高效率。金融机构业务部门的数据分析需求进一步增加,商业智能分析产品被业务专家广泛使用在辅助分析、协助决策、智能助理等各个领域。BI分析更加自动化,增强型分析(是数据准备和洞察过程自动化、使用自然语言或语音交互、根据AI分析给出决策建议、利用机器学习和AI管理数据)逐步成为可能。基于大数据和AI提供的各项能力,客服机器人、外呼机器人、智能投顾、智能投研、客户流失预测、绩优销售预测、千人千面的金融产品等变为现实。
记者:智慧金融时代,AI技术在金融服务的落地场景也越来越多。您能否以宜信的某一个AI产品为例,简单介绍AI在金融服务业务场景中的落地实践。
王东:这里,我就介绍一下我们智能聊天机器人平台吧。该平台是结合自然语言处理、搜索引擎、会话领域场景的一站式人机对话解决方案,只需简单导入自己的业务问答数据知识,系统的智能模型就会快速学习并生成相应的机器人,创建出定制化的业务咨询专家。
智能聊天机器人平台包含QA聊天机器人、任务机器人、闲聊机器人、人工后台、文档管理、模型管理、会话管理、统计报表等诸多功能。平台支持多租户,对算力、数据和资源进行隔离。对接公司LDAP、SMP、SSO等认证系统,支持功能角色和数据角色,对业务系统无侵入,可以内嵌到公司PC端业务系统中或手机APP中。
以CSC场景为例:CSC的一线同事在日常工作中,每天都会产生大量业务问题需要咨询。此前这些问题通过蜜蜂等IM软件在工作群内进行询问,由CSC客服管理部相关同事支持。但由于问题数量大、涉及业务线多,这些业务咨询往往不能得到迅速解决,影响业务的顺利开展。另一方面,通过人工进行业务问题支持的工作还存在着响应缓慢、效率不高、成本高昂等问题。最终从客户角度来看,业务问题的无法解决或解决流程不规范,将严重影响客户体验和品牌认知。
使用了智能问答机器人后, 门店客服可以通过智能机器人快速得到一致性答案,通过搜索引擎快速检索到业务文档相关资料,当遇到机器人无法解答问题,可以将问题转入人工后台。让大部分常见问题由机器人代劳,少部分复杂的问题转后台人工处理,通过智能机器人+人工后台的方式,共同提供完整的快捷的一体化用户体验。
由于智能聊天机器人平台是按照平台化方式来建设的,因此很容易推广到公司其他需要智能聊天的场景中,除了CSC客服问答机器人以外,目前已经在公司车贷客服问答、催收业务咨询、财富智能问答、指尖金融家APP和信审业务咨询等领域中上线和使用,成为客服管理重要的日常工具,实现了运营管理智能化从0到1的过程,帮助运营人员减轻压力,提升运营效率。
金融领域正掀起一场智能化的变革,智能聊天机器人在这场变革中将扮演重要角色。众多分析师认为,聊天机器人的商业化应用,其真正潜力正是在金融领域。除了对企业内部业务的智能化支持,更加令人兴奋的是聊天机器人与金融的结合将彻底颠覆个人金融服务的形式,相信在不远的将来,智能金融机器人将在客服、咨询、理财、支付等各种场景下提供更加科学而自然、理性兼具人性的服务,这也是我们平台的最终发展目标。
(更多关于智能聊天机器人的分享,包括智能聊天机器人平台的技术架构、功能实现及应用场景等,将在7月25日(本周四)晚8点,宜信技术沙龙直播分享,请关注。)
记者:智能化的AI产品可以解决复杂多样的业务问题,但面对众多的需求,需要进行优先级排列,您和团队是如何判断业务问题优先级的呢?
王东:就能力分层来说,我们认为智慧化AI产品可以分为三层:
最底层——AI平台层:提供在线训练、在线标注、特征工程、自助训练、算法库、训练环境等AI基础设施。服务的对象是AI科学家和数据科学家,为他们提供平台和工具支撑。
中间层——AI服务层:提供语言合成、词法分析、相似度比较、观点抽取、卡证票据类识别等通用AI服务,以及与业务方合作的智能服务项目。服务的对象是我们各个业务系统,为各个业务系统提供AI能力支持,助力业务发展。
最上层——AI产品层:提供类似智能聊天机器人平台这样的端到端解决方案。服务的对象是我们的一线业务同事、甚至可能是我们的客户。
从技术难度来说,最挑战的是最底层-AI平台层,打造一套自己的在线训练平台一直是很多AI科学家和数据科学家所期待的,但打造一套非常好用的在线训练平台并不容易,需要投入大量人力和时间,维护成本也很高,需要增加最新算法库等,对使用的用户要求也比较高,一般都是算法工程师和科学家。我们的业务方对这个一般没有什么感知。
从业务影响力和优先级来说,最上层和中间层的优先级会更高一些,这两层主要是为公司一线业务系统服务,会直接或间接触达到一线业务同事或客户,直接产生商业价值和降低成本。
作为AI中台来说,在有限的人力情况下,我们会更优先支持最上层和中间层的AI服务,例如:聊天机器人平台、语音合成、主题提取、卡证类识别等通用类AI服务以及与业务方合作的智能服务项目。而对于最底层AI平台,我们也会在日常工作中,通过积累和沉淀可以复用的工具集,逐步形成相应平台能力。
记者:据悉,宜信的智能聊天机器人平台是基于AI中台研发的,那么AI中台为智能聊天机器人平台的研发提供了哪些优势呢?相比AI中台建设之前,有哪些地方得到了改善?
王东:从AI中台的使命来说,AI中台承担一些跨领域的、平台级的服务研发和推广,避免烟囱式的开发,强调开发合作、通用性和可复用性。智能聊天机器人平台就是这样一款产品,它具有平台的通用性,可以内嵌到公司各个业务系统中,以自然语言的方式提供问题咨询、任务执行、业务解答等支持,最终达到节省人力,降本增效的目标。
智能聊天机器人在AI中台开发是有诸多好处的:
从人员方面来说,智能聊天机器人涉及到自然语言处理、语音转换等技术,这需要在NLP和语音识别等专业领域深耕的AI科学家来支持。一方面机器人平台可以借助AI中台的AI科学家通过更好的算法让聊天机器人更加智能,更加多样化,另外一方面机器人平台也为AI中台的专业AI人员找到了合适的用武之地和实践场景。
从平台层面来说,智能聊天机器人所需要的模型服务是可以向下沉淀的,通用化后成为AI中台的AIHub模型服务平台。 这样聊天机器人平台不必关心模型管理,只需要关注自己聊天机器人领域的事情,例如模型服务、模型编排、模型监控预警等这些模型通用能力的事情交给AI中台的AIHub模型服务平台来解决。实现产品模块边界清晰,并提高复用性和专业度,减少重复建设。
记者:宜信技术学院组织了2次直播分享,主题分别是数据中台和AI中台,您在这两个项目都扮演了重要的角色,现在也越来越多的人提到数据中台需要向AI中台演进,您对此怎么看?宜信的数据中台和AI中台之间是什么样的关系?二者之间是如何支持协作的?
王东:数据中台除了提供数据平台本身的两大能力(数据存储和数据计算)以外,还提供了更高级的能力,就是把数据变成一种基础服务提供给业务方,业务方可以以自助的方式在数据中台上获取数据,进行数据处理、数据探索、数据挖掘、分析钻取、多维分析、自助化报表、数据分享等,以快速的实现自己的商业价值。
随着业务的发展,越来越多的智能化数据需求被提出,这些智能化需求涉及到模型训练、数据标注、特征工程、模型部署、性能监控等,需要使用机器学习、深度学习等算法支持。数据中台的主要目标还是服务数据,对于智能化和模型并不能很好地支持,因此AI中台应运而生。
我们把智能服务的需求抽象出来,形成一个独立的AI中台层。AI中台是一个用来构建智能服务的基础设施平台,对公司所需的模型提供了分布分层的构建能力和全生命周期管理的服务,鼓励各个业务领域基础性、场景性、通用性的AI能力沉淀到平台中,加强模型复用、组合创新、规模化,最终实现降本增效和快速响应业务方。
数据中台和AI中台两者是相互依存,承前启后的关系。
数据中台和AI中台两者都对外提供服务,只是侧重点不同:数据中台提供各种数据服务(BI报表应用、数据探索等),AI中台提供各种智能服务(模型预测、智能推荐等);
AI中台依托数据中台提供的数据能力和工具集,加速AI相关服务的开发和复用,来应对前台智能业务需求。有了数据中台清洗好的数据,搭建智能项目事半功倍;
数据中台也需要使用AI中台的智能化能力使得数据使用更加平民化和智能化。例如增强型BI分析:通用自然语言交互方式,降低BI使用门槛;通过AI分析给出参与建议,帮助普通用户在没有数据专家的情况下有效访问数据;增强型数据管理:利用机器学习来管理数据,包括数据质量、元数据管理;主数据管理等。
记者:从去年开始,似乎每个公司都在谈中台,但其实很多人对中台的具体价值还不是很理解,从宜信的数据中台和AI中台这两个项目来看,中台在赋能业务方面有哪些优势?请您举几个例子具体介绍。
王东:在“以用户为中心”的思想指导下,企业需要快速响应、挖掘、引领⽤户的需求,借助平台化的力量可以事半功倍。后台并不为前台而生,要么不好用,要么变更速度跟不上前台的节奏。就算是新建的后台系统,因为其后台管理的属性(考虑到企业安全、审计、合规、法律等限制)导致不能适应前台快速开发的需求。前台和后台就像是两个不同转速的⻮轮,前台要快速响应,后台则要求越稳定越好。
因此中台应运而生,中台存在的目的就是更好地服务前台,进而更好地响应服务。在宜信,数据中台和AI中台也同样是为了更好更快地服务前台而存在:
以数据中台为例:业务领域组数据团队需要紧急制作一批报表,不希望排期,部分报表需要T+0时效性。数据来源是异构数据库,对数据时效性要求很高,需要对数据处理后并展示报表。使用数据中台,业务方不需要关心数据的异构性,无论是实时数据还是批量数据,只需要懂SQL,业务方都可以在数据中台上申请数据,自助地写SQL进行处理数据清洗、数据处理,最后,通过配置和写SQL生成自己需要报表,不用等排期,完全自助快速完成。
以AI中台为例:AI中台的智能聊天机器人平台,对接第一个业务方是从零开始,从研发平台、模型研发、数据对接、到使用上线第一期,花了6个月的时间,第二个业务方享受到平台的优势,直接导入数据,进行验证和对接后,4个月实现上线第一期,之后的业务方更快2个月上线,最近的一个业务方达到3周就上线的速度,体现了平台的复用性带来的便捷和快速响应业务方需求的能力。
中台将前台业务中相对稳定的能力固化和沉淀下来,并共享给有需要的其他业务方使用,从而实现快速响应业务需求、降低成本和支持业务方进行规模化创新。
记者:以您的经验来看,什么样的企业需要建设数据或者AI中台?或者说企业在什么时候应该要建设中台,是否有什么明显的信号?比如说企业到了什么样的阶段或者遇到什么样的问题。
王东:企业启动自己的数据中台和AI中台建设,是与企业当时的业务发展阶段相关的。
很多企业在早期业务发展过程中,为了解决一些当时的业务问题,快速上线了很多功能,要么垂直的、个性化的业务逻辑与基础系统耦合太深,横向系统之间、上下游系统之间交叉逻辑错综复杂。要么缺乏统一规划,建设了许多高度相似的系统,大量重复建设,但又不通用,用户体验不统一。 这样导致在新业务、新市场的拓展过程中,系统没法直接复用,甚至没法快速迭代。
我们称为 “重复造轮子”和“烟囱式架构”,本质上是企业在早期高速发展过程当中,为了快速解决当时的业务问题,而欠下了许多技术债务。这些历史技术债务积重难返,当企业进入成熟期之后,发现这些问题的存在,严重影响了企业的运行效率和运营成本。大多数提出中台战略或是建设大中台的企业,都面临过类似的困境。
中台化建设作为一种产品设计思想或者系统架构思想,对于任何一家即将或者正在面临业务高速增长的企业来说,都值得借鉴,对目前业务当中大量可复用的功能和场景进行梳理,为业务的高速增长做好准备,同时也起到了降本增效的目的。
这个过程很像是在飞行过程中修发动机。一方面,知道飞机发动机已经存在一些问题,需要修理; 另外一方面,还在飞行过程中,飞机还要飞,还要支持业务发展,不可能将发动机停了。这个过程是有一定难度,还要抢时间,为下一次业务发展做好准备。
通过机制化、产品化等方式,将企业内部具有通用性的数据、功能、产品进行统一规划和开发,从而更好地帮助前台业务部门更多地关注业务,提高业务运营效率,进而提升企业竞争力,是企业中台化建设的目标。
记者:前面您也讲到,智能聊天机器人平台的研发要基于数据中台所提供的数据挖掘和处理能力,可以说AI产品的研发和应用离不开大数据技术的支撑。那您认为大数据技术与AI应用落地之间是一种什么样的关系?
王东:纵观这次人工智能的浪潮,可以说是算法、大数据等技术和硬件多方面的因素促成的。一方面算法层面有了进一步突破,更重要的是大数据相关技术的成熟,使得数据的获取变得容易,大数据计算变得可能,以前许多不可能完成的事情,现在可以通过大数据的算力来进行学习和训练。再结合现在GPU、AI芯片以及传感器等硬件技术,使得需要大规模计算的深度学习训练可以完成,这些都直接导致了AI应用的快速落地和到处开花。
以互联网AI应用为例,互联网巨头是使用大数据标注并落地AI应用的最早受益者。AI应用最早应用在搜索引擎(Google、百度)、广告系统(Ebay)、电子商务网站(阿里)等,它们都是大数据的产生方和使用方,然后是在拥有大数据流的社交平台(Facebook,腾讯),到现在使用大数据技术在垂直细分领域做个性化推荐平台(头条、快手)。一方面大家在使用这些互联网平台,另外一方面大家也在进行免费的大数据标注。
以商业AI应用为例,商业机构通过激活已有的大数据,并结合AI算法创造商业价值。医疗机构通过已有病历实现疾病诊断/鉴别、个性化治疗/行为矫正、临床决策支持系统、流行病爆发预测等, 金融机构通过已有交易数据,进行大数据风控、个性化营销、智能投顾、智能投研等。这些都是大数据与AI紧密结合的产物。
以实体世界AI应用为例,通过获取实体世界的数据,实现智能化,带来新的应用、新的商机。通过大数据、AI与汽车行业结合,诞生了自动驾驶、路径规划、实时路况、危险预警等应用;大数据与商业零售结合,收集海量顾客信息,结合AI技术,用于精准营销、店铺选址、库存规划、个性化服务等。大数据、AI技术与智慧城市、智能安监、环境治理、教育等诸多领域结合后,都带来了大量新的应用和商业机会。
因此,无论是传统的数据挖掘、还是机器学习、深度学习,所有的模型都离不开大量的数据,可以说大数据技术是AI应用的养料和土壤,大数据技术催生了AI应用的落地。
记者:最后一个问题我们来聊聊AI的应用前景吧。您觉得现在AI技术是否已经成熟到可以大规模落地应用了?以金融行业举例的话,您认为要真正实现AI技术在金融服务中的全面落地,现在还缺少什么?比如技术方面、数据资源方面等。
王东:最近对AI应用讨论得挺多,有以下几种观点:
“速胜论”:理由是基于深度学习技术的爆发式进步,由AlphaGo完胜人类职业围棋顶尖水平为导火索,在图像领域(图像识别、人脸识别、视频识别等)、语音领域(语言识别、语言合成、智能翻译等)取得了巨大的成功,火热的人工智能带来了很多机会,资本的大量涌入,市场上涌现了一大批 AI 初创公司,同时媒体的大肆宣扬,比如说「人类要被机器人取代」「机器开始威胁人类」等等,导致一部分人对AI技术已经能够大规模普及和落地充满信心。
“投降主义论”:随着进一步研究发现,许多问题并没有解决。例如开放领域的聊天机器人不够聪明,整体有待加强。主要原因在于自然语言理解的发展进程并没有我们想象中快,深度学习也似乎没有解决这个问题,可以与人类对话交流的机器人好像从未出现过。有外媒甚至评论道:“我不确定能不能说聊天机器人死了,因为我不知道它是否活过。”除了上述的一些成功领域,深度学习也并没有解决其他所有领域的问题。
了解到人工智能历史的同行都知道,其实人工智能至今经历了三次大的热潮。每次都经历了开始是“人类要毁灭了”,后来是“骗子”的过程。
image实际上,在一个特定领域的优秀表现,并不能代表 AI 技术无所不能。同样的,在通用领域不能解决的问题,不代表特定领域不能解决。
我更加相信“持久战论”,罗马从来都不是一天能够建成的,技术的突破也必然会经历一定时间的积累。AI技术在金融服务中的落地,我比较赞同宜信CTO向江旭先生提的观点“大胆拥抱,小心实践”。
首先需要选择金融领域的业务痛点,并通过AI技术来解决这些痛点,把非常炫酷的AI技术落实到实际业务需求中,而不是为炫酷而炫酷。就目前而言,我们的AI中台会选择在智能机器人和知识图谱构建上发力。智能聊天机器人能为公司内外提供专业领域的知识解答,知识图谱能为各业务方提供智能问答、智能搜索、精准营销等。最重要的是,我们希望按照平台化的方式去建设它们,希望建设知识图谱的方法论、工具和平台可复用。
目前在落地过程中,除了搭建AI中台相关平台以外,花费时间最多的是与数据相关的过程,无论是模型训练,还是知识图谱构建,很多时间用在获取数据和探索数据。
对于普通的模型训练,需要多个维度的数据,AI科学家需要对这些数据进行观察和探索,一般这些数据都是结构化数据,这个问题会随着数据中台的成长,数据汇集越来越多后,得到逐步的解决。数据中台提供自助化探索数据的能力,能够大幅减少获取数据和探索数据的时间和成本。
对于图谱构建和自然语言处理,我们很多的金融数据保存为非结构化的数据和语料,例如pdf文档、表格数据、扫描图片等,一方面要求数据中台或数据平台能够提供非结构化数据的获取能力,另一方面也要求AI中台提供对这种非结构化数据进行在线标注、在线提取的平台级能力。
嘉宾介绍:
王东:宜信科技中心AI中台团队负责人
北京大学软件工程专业硕士,宜信科技中心AI中台团队负责人,目前负责宜信AI中台平台的建设工作。研究领域方向包括开放AI平台建设、智能聊天机器人、实时数据归集和处理、大数据平台研发和推广等。拥有10年以上金融和互联网企业基础系统和数据类研发经验。宜信敏捷大数据栈DBus开源项目负责人,CUBRID-cluster开源项目发起人。曾任韩国最大搜索引擎公司——Naver资深工程师,多年负责CUBRID-cluster分布式数据库引擎和CUBRID数据库引擎研发工作。