多模态关系
2023-03-27 本文已影响0人
影子喵喵喵
多模态深度学习可以将不同模态的信息连接起来,这对于生成式 AI 和神经搜索十分有用。在以下示例中,我们将 cat, dog,human,ape 的文本和图像映射到同一嵌入空间中:

这些项目在单个嵌入空间中的位置编码了它们之间的关系信息:
—— cat 的文本 embedding 和 dog 的文本 embedding 更近(相同模态);
—— human 的文本 embedding 和 ape 的文本 embedding 更近(相同模态);
—— cat 和文本 embedding 和 human 的文本 embedding 很远(相同模态);
—— cat 的文本 embedding 和 cat 的图像 embedding 更近(不同模态);
—— cat 的图像 embedding 和 dog 的图像 embedding 更近(相同模态)。
这些信息很明显可以用于信息检索中,但是生成式 AI 也可以使用这些信息。相比于在一组文本或图像 embedding 中寻找距离最近的向量,生成式 AI 是为提示的 embedding 创建距离最近的文本或图像。

多模态深度学习的关键就是理解不同模态信息之间的关系。
你可以利用这种关系搜索现有数据,也就是神经搜索;或者也可以生成新的数据,也就是生成式 AI。