技术实现想法简友广场

多模态关系

2023-03-27  本文已影响0人  影子喵喵喵

多模态深度学习可以将不同模态的信息连接起来,这对于生成式 AI 和神经搜索十分有用。在以下示例中,我们将 cat, dog,human,ape 的文本和图像映射到同一嵌入空间中:

这些项目在单个嵌入空间中的位置编码了它们之间的关系信息:

—— cat 的文本 embedding 和 dog 的文本 embedding 更近(相同模态);

—— human 的文本 embedding 和 ape 的文本 embedding 更近(相同模态);

—— cat 和文本 embedding 和 human 的文本 embedding 很远(相同模态);

—— cat 的文本 embedding 和 cat 的图像 embedding 更近(不同模态);

—— cat 的图像 embedding 和 dog 的图像 embedding 更近(相同模态)。

这些信息很明显可以用于信息检索中,但是生成式 AI 也可以使用这些信息。相比于在一组文本或图像 embedding 中寻找距离最近的向量,生成式 AI 是为提示的 embedding 创建距离最近的文本或图像。

多模态深度学习的关键就是理解不同模态信息之间的关系。

你可以利用这种关系搜索现有数据,也就是神经搜索;或者也可以生成新的数据,也就是生成式 AI。

上一篇 下一篇

猜你喜欢

热点阅读