论文阅读_LMM 的黎明_GPT4_4V

2023-10-03  本文已影响0人  xieyan0811
英文名称: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
中文名称: LMM 的黎明:GPT-4V 的初步探索
文章: http://arxiv.org/abs/2309.17421
中文翻译:https://mp.weixin.qq.com/s/a8Y_yU5XYgJhQ2xMuTK13w
作者: Zhengyuan Yang
日期: 2023-09-29

1 读后感

GPT-4V 是基于 SOTA LLM 并使用大量多模态数据训练的最先进的具有视觉能力的 LMM。

论文是 2023 年 9 月 29 日微软发布 GPT-4V(视觉)的研究报告。主要讨论了多模态及其在各场景中的应用。文章不涉及公式及具体实现方法,整体偏重经验和测试,看了之后可以少走一些弯路。文章 166 页,近 3W 字,124 张图片,乍一看觉得挺长的,不过实验挺丰富挺有意思的,有点像在飞机上翻杂志的感觉。

整个文章看下来,感觉就像是培养一个机器 " 人 ",从底层的视觉和文本能力,推理能力,智商情商,到后面的与物理世界交互,解决具体问题的能力。虽然还不是很完美,但文档让我们对它的能力有一个大概的定位和评估。

我个人比较喜欢 3.4 节和 9 章。3.4 节涉及一些较为复杂的使用场景,Zero-shot 问题,以及多步推理问题,在不改变网络参数的情况下,如何通过少量示例让模型正常工作。有点像构建人的思考能力:通过构建底层的学习逻辑,让模型从死记硬背到举一返三。第 9 章 讨论模型的具体应用,以及与现有技术结合的方法。整体看来,虽然目前模型还不能做到完全自动,但可以实现很多辅助工作,且在各个领域都有许多可以深入发展的工作机会。

(阅读时请注意 LMMs 与 LLMs 的区别)

2 模型输入

3 工作模式及提示技巧

4 视觉语言能力

5 人机交互:视觉参考提示

6 时间序列和视频理解

7 抽象视频推理和智力测试

8. 情商测试

同理心和情商

9. 新兴应用亮点

10. LLMs 增强智能体

讨论可能的未来研究方向,将应用扩展到多模态场景,使用的新能力。

上一篇 下一篇

猜你喜欢

热点阅读