多模态关系

2023-03-27 本文已影响0人影子喵喵喵

多模态深度学习可以将不同模态的信息连接起来，这对于生成式 AI 和神经搜索十分有用。在以下示例中，我们将 cat, dog,human,ape 的文本和图像映射到同一嵌入空间中：

这些项目在单个嵌入空间中的位置编码了它们之间的关系信息：

—— cat 的文本 embedding 和 dog 的文本 embedding 更近（相同模态）；

—— human 的文本 embedding 和 ape 的文本 embedding 更近（相同模态）；

—— cat 和文本 embedding 和 human 的文本 embedding 很远（相同模态）；

—— cat 的文本 embedding 和 cat 的图像 embedding 更近（不同模态）；

—— cat 的图像 embedding 和 dog 的图像 embedding 更近（相同模态）。

这些信息很明显可以用于信息检索中，但是生成式 AI 也可以使用这些信息。相比于在一组文本或图像 embedding 中寻找距离最近的向量，生成式 AI 是为提示的 embedding 创建距离最近的文本或图像。

多模态深度学习的关键就是理解不同模态信息之间的关系。

你可以利用这种关系搜索现有数据，也就是神经搜索；或者也可以生成新的数据，也就是生成式 AI。