人工智能下的多感观应用

2023-01-14  本文已影响0人  晓在IT

人对AI机器的渴望,就是希望机器具有听说读写的能力,而这些能力在也内,又被成为”多模态“。

一、模态的概念

所谓“模态modality”,是德国生理学家赫尔姆霍茨提出一种生物学概念。即生物凭借感知器官与经验来接受信息的通道,比如人类有视觉模态、听觉模态等等。

假如我们把“模态”通俗地理解为感官,那么智能音箱就是只具备听觉模态的物联网设备,而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起,多模态物联网也就诞生了。

二、为什么要有多模态

相比于只侧重单一模态的技术(比如图像识别、动作检测、机器翻译等),多模态技术一定距离真正的机器智能更近一些,因为机器智能的终极目的是模拟人的智能,而人之本身对于这个世界的认识一定是视听说的结合,这就对应着多模态技术的融合。

三、主要的AI感知模态

运用到物联网设备当中,今天主要的AI感知模态有三种:

  1. 语音交互,包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域;
  2. 机器视觉,包括自然物体识别、人脸识别、肢体动作识别等;
  3. 传感器智能,包括AI对热量、红外捕捉信号、空间信号的阅读与理解。

把这三种东西融合在一起,物联网设备就可以在单纯的能听会说之外,同时还用摄像头观察、用传感器判断。

四、多模态下的数据使用

多模态人工智能还存在不少技术难点:

第一是数据模态多种多样,包括2D图像、3D模型、结构化信息、文本、声音及更多无法量化的数据;


image.png

第二是多模态数据的不对应,如从图像到文字,从文字到图像,都是“一对多”的过程,会有多种的描述和呈现;


image.png
第三是多模态数据的融合,一个软件或算法的进步较为容易,但多个算法叠加在一起,难度将几何级上升,如“告诉机器人拿桌子左边的瓶子”,会经过语言模型、三维建模、自动寻路、图像分析等步骤;
image.png
上一篇下一篇

猜你喜欢

热点阅读