论文阅读_Visual_ChatGPT

2023-04-13  本文已影响0人  xieyan0811

论文信息

name_en: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
name_ch: Visual Chatgpt:使用可视化基础模型进行交谈、绘图和编辑
paper_addr: http://arxiv.org/abs/2303.04671
date_read: 2023-03-11
date_publish: 2023-03-08
tags: ['深度学习','多模态']
author: Chenfei Wu,MicroSoft
code: https://github.com/microsoft/visual-chatgpt

读后感

在ChatGPT和图像构建方法间做了桥接,和其它模型相比,除了利用大语言模型中的知识,还利用了ChatGPT强化学习带来的能力,是一个结合已有技术的一个优雅示例。
本文将CoT的潜力扩展到大规模任务,包括但不限于文本生成高清图像、图像到图像的翻译、图像到文本的生成等。CoT指的是Chain-of-Thought思想链,主要指模型的多步推理能力,以解决更为复杂的问题。
主要对聊天的场景进行优化,在提示上作文章。即:在ChatGPT外边包了一层,这也是当前最常见的用法。文章偏工程化的具体实现。

介绍

主要实现:

提供了如下功能:

文章贡献:

Visual ChatGPT

全文唯一公式:

i:i轮对话
j:解决复杂问题时,回答可能拆解成多步,j表示每一步
P:系统性提示
F:虚拟函数模块,F={f1,f2,...fN},它包含一组各有输入输出的决策函数。
H:前几轮的对话s历史
Q:表示人机对话中第i轮对话中的问题,它可以包含图片和文本
R:解决复杂问题时,前j个步骤的结果
A:人机对话中第i轮对话中的答案,回答支持多种格式混合
M:提示管理器(核心功能),将图像等信息转换成ChatGPT能识别的文本;

其核心过程主要分为以下四步:

处理系统性提示 M(P)

生成ChatGPT能明白的语义

基础模块 M(F)

更好地与图像工具结合,常见的两种应用是:生成/编辑图片,根据图片回答问题。

处理用户输入 M(Qi)

用户输入可能是文本或者图片。

处理输出 M(F(Ai))

处理VFM产生的图像,并在VFM和ChatGPT间交互,最终生成可以反馈给用户的数据。

实验

实验使用ChatGPT (OpenAI “text-davinci-003” version)。

上一篇 下一篇

猜你喜欢

热点阅读