微软开源 Visual ChatGPT

文章
皮肤

Wilson (42865)发表于 2023年03月21日 18时02分星期二
来自霸主的影子

OpenAI 的 ChatGPT（GPT 3 版本）是基于大语言模型，专门训练以文本形式的对话与用户互动。它不是基于多模态模型，不支持图像或语音的输入输出。如果我们想要构建一个类似 ChatGPT 的支持图像理解和生成的系统，那么可能需要使用一个多模态会话模型进行训练。但此类的训练需要消耗大量的数据和算力资源。与此从头开始构建一个全新的系统，不如站在巨人的肩膀上。微软亚洲研究院的研究人员在预印本网站 arxiv 上发表论文《Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models》，提出在 ChatGPT 和多个 Visual Foundation Models 基础上构建 Visual ChatGPT。源代码托管在 GitHub 上。

https://arxiv.org/pdf/2303.04671.pdf
https://github.com/microsoft/visual-chatgpt