微服务实践03--业务支持02--AI01--虚拟形象
0. 概述
伴随着人工智能技术的不断发展,语音、手势、触控、人脸等,多模态交互也全面开启智能时代。以虚拟形象为主的交互方式已经成为了交互的前沿,综合了智能交互的各种方式。虚拟形象可以应用在各种场景下,例如:虚拟课堂,虚拟会议,虚拟主播,虚拟客服等等场景。
虚拟形象是对各种人工智能的综合使用场景,现阶段云厂商基本都提供了虚拟形象的服务。但现阶段云厂商提供的虚拟形象服务都以黑盒的方式提供,这样使使用方无法评估云厂商提供的虚拟形象的可用性,适配性,健壮性,分发能力等等。之所以云厂商不将底层技术实现描述清晰,也是因为虚拟形象技术发展还处于初期阶段。技术初期阶段到技术稳定器肯定会伴随着技术的重大变更。
在虚拟形象发展初期云厂商提供的虚拟形象服务,对于技术的抽象以及提供的开放接口形态都不甚完善。也造成在技术逐渐成熟过程中会有接口的重大变更。
本文为了解决技术黑盒与接口抽象问题,从虚拟形象技术解决方案中可能涉及到的人工智能、技术、逻辑来说明虚拟形象的分类以及技术特点。从而可以更有效的评估虚拟形象服务是否适合。
1. 虚机形象分类
0. 描述
虚拟形象即在UI上展示出数字形象进行表演、沟通等行为。所以在这里要求分几个层次:
- 可以进行多轮对话(非重点)
- 可以展示出数字形象
- 数字形象可以根据要求进行相应的动作
- 可以根据说话内容对上唇形
- 可以根据情绪,展示出不同的表情
虚拟人概念比较广泛,在业务与技术调研过程中会发现很多地方都讲多轮对话作为虚拟人来称呼。其实用于多轮对话的模型是虚拟形象领域中的交互核心,而不是全部。
虚拟形象包含多轮对话、数字形象、情感迁移三项,以及在组成数字形象解决方案时用于链接三项的能力。完善的虚拟形象解决方案包括很多内容,但并不是所有的业务场景都需要完整的虚拟形象解决方案。例如:在虚拟课程业务场景下通过演示PPT和语音之间同步是最重要的,而数字形象的存在并不是必须的。在虚拟课程场景下数字形象、数字形象的语音唇形的优先级就低于声音与演示PPT同步功能。
不同的应用场景,需要的功能也是不一样的。对于功能的业务优先级也不一样。所以在各种数字形象的解决方案中并不一定包含所有的功能。
1. 虚拟形象分类
在进行虚拟形象评估之前需要明确很多业务问题,最主要的是确认数字形象到底要提供哪些服务?如果不是现在理不清要要在那个场景下使用虚拟形象,可以回答以下几个问题:
- 必须以数字形象的方式进行交互?还是语音交互就可以?甚至只用文字交互就可以?
- 对所有虚拟形象的观看者,还是对单个观看者的虚拟形象。
- 虚拟形象是用来生成重复播放的视频?还是根据观看者的特点而独立生成的?
- 需要特定的领域中的问答集?还是通用的聊天场景?
回答完以上的这些问题,就可以从下面分类中选择不同的类型。
用途分类
-
形象跟踪
主要跟踪面部动作、肢体动作并在数字形象中实时展示出的场景。这种技术应用比较多的是影视视频制作,很多电影中都用到了该技术。
但,这个类型的虚拟形象不会与其他的AI技术对接。基本上就是生成一段视频,并发布即可。- 分类
- 表情驱动
- 肢体驱动
- 分类
-
合成视频类
通过一段输入,生成合适的视频。并发布。
对比“形象跟踪”这里通过人工智能生成数字形象的动作、表情、视频场景等内容。- 分类
- 文本驱动
- 声音驱动
- 分类
-
模型控制类
3D/2D模型直接在UI上展示,并根据输入控制UI上的形象做相应的动作、表情的过程。
- 分类
- 浏览器模型驱动
- 游戏模型驱动
- 移动端模型驱动
- 分类
技术分类
-
视频类
视频类即虚拟形象以视频的方式呈现。
-
视频文件
最终生成视频文件,可以多次播放视频。
例如:视频主播上传到视频网站中的视频。这种视频可以随时从头播放到尾。 -
实时视频流
对外部输入形成实时的反馈的视频。
例如:视频主播的在线直播,每个观看者进入主播房间后都看到的是主播当前表演的内容。
-
-
模型驱动类
模型驱动类即以3D/2D模型方式呈现,并可以通过控制模型动作、表情、场景来展示动画。特点: 可以详细的控制每个客户看到的内容都是不一样的。因为与虚拟形象交互的每个客户都可以对虚拟形象提特有的问题,而虚拟形象可以根据不同客户的问题形成不同的答案而展示出不同的动作、表情。
2. 制作过程
0. 描述
前面讨论了虚拟形象适用于哪些业务场景,也明确了场景下可以使用哪些类型的虚拟形象。有了业务场景之后,就需要具体实施虚拟形象。本节讨论实施阶段要完成的工作。用来指导实际虚拟形象研发过程。
从研发过程中可以了解到虚拟形象为了满足业务场景中的需求而在背后做的工作,以深入了解虚拟形象解决方案以及调整方式。更好的为虚拟形象运营提供指导。
1. 过程
-
确定具体的业务场景
回答完上节中关于业务场景的问题,并选择了使用哪一类的虚拟形象。就可以决定后面的几个步骤具体应该怎样去做。
-
制定话术或者问答集
-
目标:
满足虚拟形象与使用者之间沟通过程中的可沟通范围,以及虚拟形象可以回答的标准话术。
包括话术的情感偏向都可以在这里进行制定。 -
内容:
针对场景的话术或者问答集合。
制定寒暄语,以及内容。
-
目标:
-
制作虚拟形象
-
目标:
构建虚拟形象,以及虚拟形象所处的场景。以虚拟形象和场景的方式为业务场景提供支撑。 -
内容:
-
人种、语种
人种与语种有一些对应关系,在特定对应关系下会有更自然、流畅的沟通过程。
-
背景、动作
根据场景,在虚拟形象的背景以及虚拟形象的动作都会有不同的选择。例如:智能客服会选择纯色或者营业柜台的方式,让用户带入具体的场景。
-
使用的3D模型、2D模型,进行模型的构建
(非必须)捕捉面部动作,捕捉身体动作,以训练人工智能
-
-
目标:
-
驱动虚拟形象动作与语音
- 目标:以合适的方式来驱动虚拟形象
-
内容:
- 驱动方式的选择
视频
模型控制 - 语音选择
男女声
背景音
声音的年龄 - 情感迁移
声音的感情
面部表情的感情
肢体动作的感情
- 驱动方式的选择
3. 实现技术
准备离开简书了,而简书不允许引流到其他平台。故全部内容已经在其他平台发布,可自行搜索。
4. 开源例子
准备离开简书了,而简书不允许引流到其他平台。故全部内容已经在其他平台发布,可自行搜索。
5. 总结
准备离开简书了,而简书不允许引流到其他平台。故全部内容已经在其他平台发布,可自行搜索。
6. 参考
动手学深度学习
《PyTorch深度学习实践》完结合集
PaddleAvatar
什么是视素(Viseme)?该如何表示?
前瞻交互:从语音、手势设计到多模融合