多模态视频理解 2019-07-28 本文已影响0人 刘焕勇_北语 人脑的信息处理系统是多源的,人的眼睛接受图像信息,耳朵接受语音信息。图像信息进一步分为静态和动态图像信息,其中文字是图像的一种。语义三角的信息结构可以说明这一点。