摩尔多万:万字综述多模态和多模态大模子

苏工坊体育

作者

以前，我们的机器进修模子一般都只处置一品种型的数据，好比只处置文本（翻译、语言建模）、图像（对象检测、图像分类）或音频（语音识别）摩尔多万。

但是，想想我们人类的大脑摩尔多万。我们不单单读写文字，还能够看图、看视频，听音乐，还可以辨识各类差别的声音。所以，为了让AI更接近实在世界，处置多品种型的数据显得十分重要。

OpenAI 在摩尔多万他们的 GPT-4V 系统简介中提到：

有人认为，把其他数据类型（好比图像输入）融入到大语言模子中，是AI研究与开展的新标的目的摩尔多万。

那种交融的办法就是将大语言模子 (LLMs) 扩展到多种数据类型，从而得到所谓的多模态大模子 (LMMs)摩尔多万。去年，几乎每周都有研究团队推出本身的LMM，好比 DeepMind 的 Flamingo、Salesforce 的 BLIP、微软的 KOSMOS-1、Google 的 PaLM-E，还有腾讯的 Macaw-LLM。以至像 ChatGPT 和 Gemini如许的聊天机器人也接纳了那种手艺。

当然，不是所有的大都据系统都是 LMMs摩尔多万。有些模子，如 Midjourney、Stable Diffusion 和 Dall-E，固然能够处置多种数据，但并没有集成语言模子。简单说，多模态可能意味着以下一项或多项：

输入和输出数据差别（如摩尔多万，从文本生成图像，或从图像生成文本）

同时处置多种输入数据（如摩尔多万，处置文本和图像）

可以生成多品种型的输出（如摩尔多万，生成文本和图像）

那篇文章次要介绍了多模态系统，出格是 LMMs，而且内容分为三部门摩尔多万。

第一部门涵盖了多模态的布景，包罗为什么要利用多模态、差别的数据模态以及多模态使命的类型摩尔多万。

第二部门深切切磋了多模态系统的奇异之处摩尔多万。通过 CLIP 那个例子，我们能够看到它若何为将来的系统铺平了道路；而 Flamingo 的超卓表示，则为 LMMs 那类手艺带来了新的启迪。

第三部门带我们走进 LMMs 的研究前沿，看看若何生成多模态的成果，以及若何更高效地停止多模态训练摩尔多万。当然，还会介绍一些新晋的多模态手艺，例如 BLIP-2、LLaVA、LLaMA-Adapter V2 和 LAVIN。

固然那篇文章篇幅较长，但你能够间接跳到你最关心的那部门摩尔多万。

⚠ 留意: 术语可能会引起曲解 ⚠

多模态数据有时指的是差别的数据散布体例，例如所谓的“双峰散布”摩尔多万。但那和我们那篇文章中谈到的多模态数据是两码事。

第1部门：深切理解“多模态”

为何“多模态”如斯重要

良多应用场景若是没有多模态手艺撑持几乎难以实现，尤其是在需要处置多品种型数据的范畴，例如医疗、机器人、电商、零售、游戏等摩尔多万。

医疗范畴若何运用多模态手艺的例子摩尔多万。图片摘自：多模态生物医学人工智能研究 (Acosta 等，Nature Medicine 2022)

更重要的是，综合利用多种数据形式的信息，能够显著提拔模子的性能摩尔多万。好比，一个可以同时处置文本和图片的模子，其效果不是应该比只能处置文本或只能处置图片的模子更超卓吗？

多模态手艺使得我们与系统交互愈加灵敏多样，能够按照本身的爱好或场所选择交互体例，好比键盘输入、语音对话或者摄影识别摩尔多万。

此中一个让我十分兴奋的应用是，借助多模态手艺，目力受损的人也能轻松阅读收集，以至在实在世界中停止导航摩尔多万。

GPT-4V 展现的多模态应用亮点

数据的多种形式

我们接触到的数据有多种形式，例如：文本、图片、音频、数据表格等摩尔多万。那些数据的一种形式有时能够转换或模仿成另一种形式。例如：

音频能够转化为图像形式，如音谱图摩尔多万。

语音内容能够转写为文字，但如许做可能会丧失某些信息，如声音的响度、腔调和停顿等摩尔多万。

图像能够转化为向量，并进一步被转换为一串文本词元（Token）序列摩尔多万。

视频现实上是一系列的图片加上音频摩尔多万。但如今，良多机器进修模子只把视频看做是图片的持续播放。那实的大大限造了它们的才能，因为研究表白，声音在视频中起到的感化与画面一样重要。好比，88% 的 TikTok 用户暗示，在 TikTok 上，声音是不成或缺的。

其实，只要你为一段文字拍张照，它就能被视为一张图片摩尔多万。

你晓得吗，数据表格也能够酿成图表，也就是我们常说的图像摩尔多万。

那么摩尔多万，还有其他的数据类型吗？

事实上，任何数字化的数据都能够用0和1的组合来暗示摩尔多万。若是有一个模子可以很好地从那些0和1的组合中进修，那它就能处置各类数据了！

当然，还有一些我们没提及的数据类型，好比图形数据和3D模子摩尔多万。此外，我们还没有涉及到代表气息和触觉的数据格局呢。

如今在机器进修范畴，音频大多只被当做是语音的另一种形式摩尔多万。它大多用于把人声转化为文字，或是把文字转化为人声。而非语音的应用，好比创做音乐，还比力少见。不信你看，有人用手艺合成了 Drake 和 Weeknd 的歌，你能够在 HuggingFace 的 MusicGen 模子里找到它。

而图片则能够说是最多用处的输入体例了，它不只能够代表文字、数据表，还能够代表音频和部门视频摩尔多万。而且，我们每天都在产生大量的图片和视频数据，因为手机和摄像头无时无刻不在拍摄。

但当我们谈到输出时，文本就显得更有力量了摩尔多万。一个只能生成图片的模子其适用途有限，但若是一个模子能输出文本，它就能完成许多使命，如摘要、翻译、逻辑推理和问答等。

为简单起见，我们将重点存眷两种形式：图像和文本摩尔多万。那些常识能够在某种水平上推广到其他形式。

多模态使命

要深切领会多模态的系统，我们更好看看它们是为领会决哪些问题而设想的摩尔多万。存在良多如许的使命，组织办法也八门五花。在良多学术文章中，我常看到把与视觉和语言相关的使命分为两类：生成和视觉语言理解（VLU）。VLU 凡是指的是不涉及生成的所有使命。那两类之间并没有严酷的分界，因为生成出谜底也需要理解。

生成

关于生成使命，输出能够是单模态（例如只是文本、图像或3D图）或多模态连系摩尔多万。如今，单模态的输出已经很遍及，但多模态的输出还在开展中。文章最初会详细讨论那个。

从文字生成图像

那个使命就是间接通过文本生成对应的图像摩尔多万。好比：Dall-E、Stable Diffusion 和 Midjourney 那些手艺都做得很好。

文字生成

一个常见的使命是视觉问题答复摩尔多万。那意味着，除了供给文字信息外，还能够为模子供给图片。好比，你能够随时拍摄任何工具，并提出问题：“我的车怎么不动了，是怎么回事？”、“那道菜怎么做？”或“那个梗是什么意思？”。

另一个应用场景是图片的描述，那也能够帮忙搜刮特定的图片摩尔多万。想象一个大公司，他们可能有上百万以至十亿的图片：产物照片、统计图、设想稿、团队合影、宣传海报等等。AI 可以主动为那些图片生成描述和相关信息，如许你就能够轻松地找到你需要的图片了。

视觉语言理解

我们重点讨论两个使命：图像分类和基于文字的图像检索摩尔多万。

图像分类

图像分类模子只会将图像归入一些预设的类别摩尔多万。当我们只关心有限的几种成果时，那种模子很适用。好比，OCR（光学字符识别）系统就是来判断某个图像上的字符是不是我们已知的字符，如数字或字母。

额外申明：OCR 次要是对单个字符停止阐发摩尔多万。但当它和一个可以理解全文布景的系统连系时，效果会更好，好比它能让我们“与”任何教科书、合同、汇编指令等“扳谈”。

上图显示了 GPT-4V 在处置文档时的情况，此中的错误用红色标出摩尔多万。

与图像分类类似的另一使命是图像到文本检索：也就是按照给定的图像，从一堆文字中找出最婚配的描述摩尔多万。那种手艺在搜刮商品图片时出格有用，能够从图片中找出相关的商批评论。

基于文本的图像检索（图像搜刮）

图像搜刮不只对搜刮引擎有意义，关于企业内部查找文档和图片也同样重要摩尔多万。有些人也称它为“文本到图像检索”。

关于那种基于文本的图像搜刮摩尔多万，大致上有两种办法：

为每张图片添加描述或标签，能够是手动添加，也能够是主动识别（好比在文本生成中提到的主动图像描述手艺）摩尔多万。然后按照输入的文本，找出与之婚配的图片。

训练图像和文本的结合向量空间摩尔多万。给定一个文本查询，生成该查询的向量，并找到向量最接近该向量的所有图像。

第二种办法愈加灵敏，相信会得到更普遍的应用摩尔多万。简单说，那就是需要一个可以同时处置图像和文本的“结合向量空间”，例如 OpenAI 的 CLIP 就做到了那一点。

第2部门：多模态训练是什么摩尔多万？

当今，我们有良多高效的多模态系统摩尔多万。那么，我应该重点介绍哪些呢？我选择了两个：CLIP (2021) 和 Flamingo (2022)，它们在科学界都很有影响力，并且公家能够随便获取关于它们的详细材料。

CLIP 是第一个能够通过零样本和少样本进修推广到多个图像分类使命的模子摩尔多万。

固然 Flamingo 不是第一个可以“自在聊天”的多模态大脑（Salesforce 的 BLIP 比它早3个月），然而，Flamingo 的强劲表示促使一些人将其视为多形式范畴的 GPT-3 时刻摩尔多万。

虽然那两个模子较旧，但它们利用的许多手艺在今天仍然适用摩尔多万。希望它们能帮忙我们更好天文解那些新兴的模子。如今，那个范畴正在飞速前进，新的设法屡见不鲜。接下来，在第3部门，我们会切磋一些最新的研究模子。

要领会多模态系统摩尔多万，我们能够从以下几个关键部门起头：

一个编码器，它能够把各类类型的数据转化为数字向量摩尔多万。

一种将差别模态的向量对齐到统一多模态向量空间的办法摩尔多万。

[仅限生成模子] 用于生成文本成果的语言模子摩尔多万。因为输入能够包罗文本和视觉效果，因而需要开发新手艺，使语言模子不只能够按照文本，还能够按照视觉效果来调理其生成成果。

在抱负的情况下，良多那类东西或组件都应该颠末预训练，能够在多个场景下反复利用摩尔多万。

CLIP：将语言和图像联络起来的魔法

CLIP 更大的亮点就是它可以将差别形式、文本和图像的数据映射到共享向量空间摩尔多万。那种共享的多模态向量空间使文本到图像和图像到文本的使命变得愈加容易。

训练那个多模态向量空间 CLIP 还产生了一个强大的图像编码器，让它在良多图像识别使命上都表示超卓，以至不需要额外的训练摩尔多万。那个编码器不只能够帮忙识别图像，还能够生成图像、答复与图像相关的问题，以至搜刮与文字描述相符的图像。Flamingo 和 LLaVa 利用 CLIP 做为图像编码器。而 DALL-E 则用 CLIP 来挑选生成的图像。目前，我们还不确定 GPT-4V 能否也利用了 CLIP。

CLIP 若何停止图像分类

CLIP 的优势还在于它巧妙天时用了我们日常的语言常识，连系了一种叫做“比照进修”的技巧，那使得它能够处置更多的数据，而且训练得愈加高效摩尔多万。接下来，我们会深切切磋那两种手艺是怎么工做的。

CLIP 的内部构造图解

简单来说，CLIP 的工做原理是训练两个“解码器”，使它们能够很好地共同摩尔多万。那个训练的目的是让准确的图片和文字组合尽可能地“类似”，而错误的组合尽可能地“不类似”。

在处置图像方面摩尔多万，研究团队试验了 ResNet 和 ViT 那两种办法，此中 ViT-L/14@336px 表示更好：

它是一个大型的视觉 Transformer (ViT-L)

它将每个图像分红 14 个小部门来处置

能够处置 336x336 像素的图像输入

而在处置文本方面，CLIP 接纳了与 GPT-2 类似但规模较小的 Transformer 模子摩尔多万。他们的根底模子只要 63M 个参数和 8 个留意力头。研究人员发现，CLIP 处置文本的才能其实不太依赖于它的规模。

提到 CLIP 向量，各人可能指的是那两种多模态向量，或者是由 CLIP 图像编码器产生的向量摩尔多万。

若何“教”机器看懂图片和文字摩尔多万？

良多年，人们都是手动给图片打上标签（如“那是一只猫”），然后用那些数据集（如 ImageNet、MS COCO）训练机器摩尔多万。但那种办法既慢又贵。

CLIP 团队发现，现有的数据集既不敷大，也不敷精准摩尔多万。所以他们缔造了一个拥有 400M 图片-文字配对的超大数据集。办法是：

列出 500,000 个关键词，像是常见的词或者维基百科的热门文章题目摩尔多万。

在大量数据中找到与那些关键词婚配的图片摩尔多万。固然详细搜索办法是奥秘，但很可能 OpenAI 利用了自家的大型数据库。

把每张图片与与它相关的文字（好比图片申明或评论）配对起来，但不是与关键词配对，因为单纯的关键词描述得太简单了摩尔多万。

为了包管数据的平衡性，他们确保了每个关键词最多只对应 20K 张图片摩尔多万。

一种新办法：比照进修

在 CLIP 呈现之前，良多模子训练都是基于固定的分类或语言模子摩尔多万。而 CLIP 接纳了“比照进修”，那种新技巧让它能应对更多品种的使命。

我们来提醒为什么在 CLIP 中，比照目的比其他办法更胜一筹摩尔多万。以图像描述为例：你有一张图片，如何生成一个恰如其分的描述呢？

什么是分类器目的摩尔多万？

想象一个机器，它的工做就是从一堆预先设定的选项中，选择一个最适宜的类别摩尔多万。但那种办法只在选项有限的情况下才行得通。之前的良多模子都遭到如许的限造。好比，ILSVRC-2012 的模子只能在 1,000 个类别中选择，而 JFT-300M 的选择则为 18,291 个类别。

那种办法的缺陷是，模子可能会遭到类此外限造而无法给出丰硕的答复，还限造了其零样本进修的才能摩尔多万。例如说，若是训练它只认识 10 品种别，那么当呈现 100 品种别时，它就手足无措了。

语言模子目的是如何的摩尔多万？

与分类器只给出一个谜底差别，语言模子能够输出一系列的谜底摩尔多万。那里的每个谜底，我们称之为“Token”。每个“Token”都来自语言模子的预定列表（词汇表）。

分类器与语言模子目的

比照目的有何差别摩尔多万？

语言模子固然输出更灵敏，但 CLIP 的研究者们发现，它在训练过程中会碰到一些困难摩尔多万。因为它老是测验考试切确地生成与图片相符的文字。但现实上，一张图片能够有良多差别的描述，好比图片的替代文字、题目或评论等。

拿 Flickr30K 数据集为例，每张图片都有 5 种差别的描述，并且那些描述之间可能差别很大摩尔多万。

为领会决那个问题，比照进修应运而生摩尔多万。它不再逃求切确婚配，而是判断哪些文字更可能与图片婚配。

在处置每一组 N 个（图片和文本）的数据时，模子城市创建 N 个文本向量和 N 个图片向量摩尔多万。

把V1,V2,...,Vn 想象成 N 张图片的向量摩尔多万。

把 L1,L2,...,Ln 想象成 N 段文本的向量摩尔多万。

CLIP 管帐算出所有 N2 中可能的图片与文本向量组合的类似度摩尔多万。它的目的是确保准确的图片-文本组合有更高的类似度，而不准确的组合类似度要尽量低。对 CLIP 来说，一次处置的数据量 N=32,768N=32,768。

换个角度理解摩尔多万，每次 CLIP 的训练现实上是完成了两项分类工做：

下面的伪代码展现摩尔多万了整个过程：

CLIP 的研究者发现，利用那种比照法，模子的效率比传统的语言模子超出跨越了 12 倍，而且还能生成更好的图片向量摩尔多万。

CLIP 手艺的日常应用

图像分类

在当今的图像分类范畴，CLIP 是一个备受推崇的“即插即用”东西，你既能够间接拿来利用，也能够按照需要停止微调摩尔多万。

基于文本的图像检索

CLIP 的奇特之处在于，它的训练体例与常见的“图片转文字”和“文字转图片”搜刮体例类似摩尔多万。那使得 CLIP 在图像搜刮使命上有着庞大的潜力。不外，与当前最顶尖的手艺比拟，CLIP 在那方面的表示还有些间隔。

有些立异者已经测验考试用 CLIP 来搜刮图片摩尔多万。例如，clip-retrieval 那个东西就是如许做的：

将你的所有图片转化为 CLIP 的向量数据格局，并保留在专门的向量数据库中摩尔多万。

对你输入的文字停止转化，使其契合 CLIP 的向量数据格局摩尔多万。

在向量数据库中做类似度检索，找出与你输入的文字向量最接近的所有图像摩尔多万。

生成图像

CLIP 不单单能够搜刮图片，还能够帮忙生成图片摩尔多万。好比，你只需给 DALL-E (2021) 一个文字描述，它就能够创做出与之相关的多种图片。然后再通过 CLIP 来选择更佳的图片展现给用户。

2022 年，OpenAI 推出了一个晋级版的手艺—— unCLIP摩尔多万。那是一个先辈的“文字到图片”的转化东西。它的工做体例分为两步：

CLIP 颠末训练并冻结摩尔多万。预训练的 CLIP 模子能够在统一向量空间中生成文本和图像的向量。

图像生成时发作两件事：

利用 CLIP 生成此文本的向量摩尔多万。

利用扩散解码器按照那个向量生成图像摩尔多万。

文本生成：若何用文字描述图片摩尔多万？

CLIP 之前测验考试过文本生成摩尔多万。他们有个尝试版叫 LM RN50。固然它能生成对应的文本，但和 CLIP 更好的版本比，差距大要有 10%。

固然现在 CLIP 不间接用于文本生成，但它的图像处置部门却是良多能生成文本的多模态大语言模子的基石摩尔多万。

Flamingo：新一代的多模态大语言模子

与 CLIP 差别，Flamingo 能够生成文本回复摩尔多万。简单说，Flamingo 就像是 CLIP 加上了一个语言模子，使得它可以按照看到的图和文，生成响应的文本 Token。

Flamingo 能够按照你给的文字和图片，给你响应的回复摩尔多万。

Flamingo 是怎么构建的摩尔多万？

简单来说摩尔多万，Flamingo 次要由两大部门构成：

“看”的部门（视觉编码器）：利用比照进修先训练一个和 CLIP 类似的模子摩尔多万。然后，把那个模子的文本编码器去掉，只保留视觉编码器。

“说”的部门（语言模子）：那部门基于一个叫 Chinchilla 的模子，让它学会了看图说话摩尔多万。除此之外，还参加了两种新手艺：Perceiver Resampler 和 GATED XATTN-DENSE。那两个我们后面再详细聊。

Flamingo 进修的材料

Flamingo 进修用了 4 套材料：2 套是图和文配对，1 套是视频和文配对，还有 1 套是图文交织的摩尔多万。

Flamingo 的视觉编码器

Flamingo 的“眼睛”（图像处置部门）是从头起头训练的，利用的是一种叫做比照进修的办法摩尔多万。并且，它用了两套图文配对的材料，总共有 2.1M 对。那个数量比 CLIP 用的还要多 5 倍呢。

Flamingo 在处置文本时选择了 BERT 手艺，而不是常见的 GPT-2摩尔多万。

而在处置图像方面，它选择利用了 NormalizerFree ResNet (NFNet) F6 那一模子摩尔多万。

在整合文本和图像信息之前，Flamingo 会对那些信息停止均匀处置摩尔多万。

Flamingo 语言模子的奥秘

Flamingo 的背后有一个强大的语言模子叫做 Chinchilla摩尔多万。详细来说，它操纵了 Chinchilla 的 9 层预训练手艺。我们常见的语言模子是按照前面的文本 Token 来推测下一个 Token 是什么，但Flamingo 停止了立异，它同时考虑了文字和图片，按照前面的文本和视觉 Token 预测下一个文本 Token。

那种办法使得文本生成不单单依赖文字，还会考虑图像信息摩尔多万。那一点从 Chunyuan Li 在 CVPR 2023 上的教程中得到了很好的解释：它是若何构建大型的多模态模子的。

为了更好地连系文字和图像，Flamingo 引入了两个高级手艺：Perceiver Resampler 和 GATED XATTN-DENSE摩尔多万。

Perceiver Resampler 的感化

视觉信息既包罗图片也包罗视频，因而处置那些信息时会产生差别数量的数据摩尔多万。而 Perceiver Resampler 的使命就是将那些差别的数据同一为 64 个尺度输出。

有个有趣的细节是，在初始的图像处置中，Flamingo 利用了 288 x 288 的分辩率摩尔多万。但后来，那个分辩率被进步到了 320 × 320。为什么呢？研究发现，进步图像处置的分辩率可以提拔模子的表示。

GATED XATTN-DENSE 层的奥秘

为了让语言模子在创做文本时更好地融入视觉信息，Flamingo 在原有的语言模子层之间参加了 GATED XATTN-DENSE 手艺摩尔多万。但若是贫乏那种手艺，Flamingo 的性能会下滑，详细来说，整体得分会降低4.2%。

丧失函数

训练细节

Chinchilla LM 的部门已经微调并锁定，而新增的部门则是从零起头在四个 Flamingo 数据集上训练的，每个数据集都有其奇特的权重摩尔多万。选择准确的权重关于获得好的性能十分关键。每个数据集的详细权重能够在前文的 Training weight 列中找到。

虽然 VTP 的权重比其他数据集小良多（0.03 与 0.2 和 1 比拟），但做者发现移除那个数据集会对所有与视频相关的使命产生不良影响摩尔多万。

固然 Flamingo 没有正式开源，但有一些开源的 Flamingo 项目复刻摩尔多万。

IDEFICS (由 HuggingFace 供给)

mlfoundations/open_flamingo

一句话总结：CLIP 和 Flamingo 的比照

第3部门：LMM 开展趋向

CLIP 已经发布 3 年了，而 Flamingo 也有将近 2 年摩尔多万。固然他们的手艺构造给了我们一个深切领会 LMM 构建办法的时机，但那个范畴仍然在不竭进化。

以下列举了我目前对几个范畴的热切等待摩尔多万。那只是此中的一部门，因为一来，那篇文章写得太长了；二来，我本身还在对那个范畴停止摸索。若是你有什么好的建议或点子，请分享给我！

交融更丰硕的数据类型

如今的多模态系统次要处置文本和图片，但跟着时间的推移，我们可能需要处置视频、音乐以至 3D 如许的内容摩尔多万。想象一下，若是所有那些差别的数据都能在一个同一的空间中暗示，那该多好！

在那方面的代表性研究包罗：

ULIP: 一种将语言、图片和三维点云同一暗示的手艺 (由 Xue 等人于 2022年12月颁发)

ImageBind: 一个能将所有内容毗连在一路的向量空间 (Girdhar 等人于 2023年5月颁发)

Jeff Dean 在 2021年提出的 Pathways 项目，其目的是“创建一个同时涵盖视觉、听觉和语言理解的多模态模子”摩尔多万。

更智能的指令响应系统

Flamingo 那个系统固然能完成良多使命，但在对话和按指令施行方面还有待加强摩尔多万。若是你对那方面不太领会，我之前写了一篇文章 RLHF 能够供你参考。目前，良多研究者都在摸索若何让机器更好天文解和施行人类的指令，例如：

MultiInstruct: 一个通过指点来优化多模态进修的手艺 (由 Xu 等人于 2022年12月颁发)

LLaVA: 针对视觉的指令优化手艺 (Liu 等人于 2023年4月28日颁发)

InstructBLIP: 一种连系视觉与语言的万能模子 (由 Salesforce 于 2023年5月11日发布)

LaVIN: Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models (由 Luo 等人于 2023年5月24日颁发)

LaVIN 论文中对其输出与其他模子的比照摩尔多万。

为多模态训练进步效率的适配器手艺

固然 Flamingo 接纳了 Chinchilla 的 9 个预先训练的固定层，但它仍是得从头训练它的视觉编码器、Perceiver 重采样器和 GATED XATTN-DENSE 层摩尔多万。那种从头起头的办法可能十分消耗计算资本。因而，许多研究者都在探寻若何通过较少的根底训练更高效地启动多模态系统。

例如，BLIP-2 的表示在 VQA-v2 的零射击测试中超越了 Flamingo-80B 8.7%，但它的参数数量是后者的 1/54摩尔多万。

那个范畴的相关研究有：

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

[LAVIN] Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

下图是 Chunyuan Li 在 CVPR 2023 上的 Large Multimodal Models 教程中的内容，那确实是一个值得一看的教程摩尔多万。

输出的多模态化

如今，越来越多的模子能够处置多品种型的输入数据，但在输出多品种型的成果方面，仍然有所欠缺摩尔多万。例如，若是我们询问 ChatGPT 来解释 RLHF，一个全面的谜底可能不单单是文字，还需要图形、公式，以至是简单动画来辅助解释。

为了产生多模态的输出成果，模子起首要生成一种“桥接”的中间产品摩尔多万。那么，那个中间产品长什么样呢？

一个选择是以文本形式呈现摩尔多万。之后那些文本会被转化为其他形式。

举例来说，CM3（由 Aghajanyan 等人在 2022 年提出）会产生 HTML 代码，那些代码能够被转化为包罗文字、格局、链接和图片的网页内容摩尔多万。而 GPT-4V 则能输出 Latex 代码，那些代码之后能够变成数据表格。

那是 CM3 产生的示例

GPT-4V 输出的 Latex 代码摩尔多万，能被变成数据表

别的一个选择是生成能代表差别内容的多模态 Token摩尔多万。Caiming Xiong 向我展现了那一办法，他和他在 Salesforce 的团队在那方面做了良多炫酷的研究。每个“Token”都有标签，用来区分是文字仍是图片。图片 Token 能够被送入图像模子如 Diffusion 产生图片，而文字 Token 则进入语言模子转化为文本。

有一篇很酷的论文用多模态语言模子生成图片（由 Koh 等人在 2023 年6月发布），展现了若何利用 LMMs 既生成文本又提取图片摩尔多万。详细如下。

最初说两句

阅读那么多关于多模态的研究文章，与处置此范畴的专家交换，实的是一次愉快的履历摩尔多万。固然我可能还遗漏了一些细节，但我希望那篇总结能帮到你，让你领会那一范畴的核心思惟，并应用在本身的工做中。

如你所见，在那篇文章的第三部门提到，多模态系统还在刚起步的阶段（实的很新，我的一个伴侣都在思疑 LMM 那个缩写能否可以流行起来）摩尔多万。确实，在我浩瀚的讨论中，我坚信，多模态系统，尤其是 LMM，将比大语言模子有更深远的影响。但需要大白的是，LMMs 的呈现，其实不意味着 LLMs 就过时了。LMMs 其实是在 LLMs 的根底上开展出来的，所以 LMM 的表示在很大水平上依赖于 LLM。良多努力于研究多模态系统的尝试室，同时也在对 LLM 停止深切研究。

提早阅读并供给反应的人

在此，我想对以下几位早期为那篇文章供给了贵重定见和建议的读者暗示感激：Han-chung Lee、Sam Reiswig 和 Luke Metz摩尔多万。

模子

以下是定时间排序的不完好的多模态系统列表摩尔多万，以展示该范畴的快速开展！

Microsoft COCO Captions: 数据搜集和评估办事器 (Apr 2015)

VQA: 视觉问题答复 (May 2015)

VideoBERT: 视频和语言暗示进修的结合模子 (Google, Apr 3, 2019)

LXMERT: 从转换器进修跨模态编码器暗示 (UNC Chapel Hill, Aug 20, 2019)

[CLIP] 从天然语言监视中进修可转移的视觉模子 (OpenAI, 2021)

通过文本生成同一视觉和语言使命 (UNC Chapel Hill, May 2021)

BLIP: 启动语言图像预训练摩尔多万，用于同一的视觉语言理解和生成 (Salesforce, Jan 28, 2022)

Flamingo: 用于小样本进修的视觉语言模子 (DeepMind, April 29, 2022)