Visual ChatGPT:使用视觉基础模型进行对话、绘图和编
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
Mar 2023
Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan
[Microsoft Research Asia]
https://arxiv.org/abs/2303.04671
https://github.com/microsoft/visual-chatgpt 短短几天收获14.6k stars
ChatGPT吸引了跨领域的兴趣,因为它提供了一个跨多个领域的具有卓越会话能力和推理能力的语言界面。然而,由于ChatGPT受过语言训练,它目前无法处理或生成来自视觉世界的图像。同时,视觉基础模型,如视觉Transformer或稳定扩散,虽然显示出强大的视觉理解和生成能力,但它们只是具有一轮固定输入和输出的特定任务的专家。为此,我们构建了一个名为\textbf{Visual ChatGPT}的系统,结合了不同的Visual Foundation模型,使用户能够通过以下方式与ChatGPT交互:1)不仅发送和接收语言,而且还接收图像2)提供复杂的视觉问题或视觉编辑指令,这些问题需要多个AI模型进行多步骤协作。3) 提供反馈并要求纠正结果。我们设计了一系列提示,将视觉模型信息注入ChatGPT,考虑到多个输入/输出的模型和需要视觉反馈的模型。实验表明,Visual ChatGPT为借助Visual Foundation模型研究ChatGPT的视觉角色打开了大门。我们的系统公开于\url{https://github.com/microsoft/visual-chatgpt}.
![](https://img.haomeiwen.com/i13727053/6cc98a5c0b743d94.png)
![](https://img.haomeiwen.com/i13727053/403a8191af4fbebc.png)