第一个基于Mamba的MLLM来了！模型权重、培训代码等都已开源-人工智能

首页 2024-07-11 23:45:17

AIxiv专栏是本网站发布学术技术内容的专栏。在过去的几年里，AIxiv专栏收到了2000多篇报道，覆盖了世界各大高校和企业的顶级实验室，有效地促进了学术交流和传播。如果您有优秀的工作要分享，请提交或联系报告。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。

引言

近几年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显著的成功。然而，目前作为许多下游任务的基本模型 MLLM 众所周知 Transformer 该网络具有较低效的二次计算复杂性。为了提高这种基本模型的效率，大量的实验表明:(1)Cobra 最先进的计算效率高的方法(例如，LLaVA-Phi，TinyLLaVA 和 MobileVLM v2)具有极具竞争力的性能，由于其竞争力 Cobra 线性序列建模，速度更快。(2)有趣的是，关闭集挑战性预测基准的结果显示，Cobra 在克服视觉错觉和空间关系判断方面表现良好。(3)值得注意的是，Cobra 即使是参数数量也只有 LLaVA 的 43% 在左右的情况下，也取得了和 LLaVA 性能相当。

大语言模型（LLMs）仅限于语言交互，限制了他们处理更多样化任务的适应性。多模态理解对于增强模型有效应对现实世界挑战的能力至关重要。因此，为了纳入多模态信息处理能力，研究人员正在积极拓展大型语言模型。视觉 - 语言模型（VLMs）如 GPT-4、LLaMA-Adapter 和 LLaVA 为了增强，已经开发出来了 LLMs 视觉理解能力。

然而，以往的研究主要试图通过类似的方法获得高效率 VLMs，即保持基于注意力的注意力 Transformer 在结构不变的情况下，减少基本语言模型的参数或视觉 token 的数量。本文提出了直接采用状态空间模型的不同视角（SSM）作为骨干网络，得到了线性计算的复杂性 MLLM。此外，本文还探索和研究了各种模态集成方案，以创建有效的多模态 Mamba。具体来说，本文采用 Mamba 作为语言模型 VLM 它已经显示了基本模型 Transformer 语言模型的竞争性能，但推理效率更高。测试显示 Cobra 与参数量级相比，推理性能与参数量级相比 MobileVLM v2 3B 和 TinyLLaVA 3B 快 3 倍至 4 倍。即使参数更多，参数也更多 LLaVA v1.5 模型（7B 与参数相比，Cobra 参数数量仍然可以约为 43% 在几个基准测试中实现匹配的性能。

? ? ? ? ? ? ? ? ? ? ? ? ? ? 图 Cobra 和 LLaVA v1.5 7B 在生成速度方面 Demo

本文的主要贡献如下：

对现有多模态大型语言模型进行了调查（MLLMs）通常依赖于 Transformer 该网络显示了二次方计算的复杂性。本文介绍了解决这一低效问题的方法 Cobra，一种具有线性计算复杂性的新颖方法 MLLM。
通过对各种模态集成方案的优化，对各种模态集成方案进行了深入探讨 Mamba 视觉与语言信息在语言模型中的整合。本文通过实验探索了不同集成策略的有效性，并确定了产生最有效的多模态表达方法。
进行了广泛的实验和评估 Cobra 旨在提高基础 MLLM 并行研究计算效率的性能。值得注意的是，Cobra 即使在参数较少的情况下，也实现了和 LLaVA 性能相当，突出了其效率。

原文链接：https://arxiv.org/pdf/2403.14520v2.pdf
项目链接：https://sites.google.com/view/cobravlm/
论文标题：Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

方法介绍

模型架构

Cobra 投影仪采用经典的视觉编码器，连接两个模式 LLM 由语言主干组成 VLM 结构。LLM 采用了主干部分 2.8B 参数预训练 Mamba 语言模型，这个模型在 600B token 数量的 SlimPajama 在数据集上进行了预训练，对话数据的指令进行了微调。

? ? ? ? ? ? ? ? ? ? ? ? ? ?图 Cobra 网络结构图

与 LLaVA 工作不同的是，Cobra 采用了 DINOv2 和 SigLIP 通过将两个视觉编码器的输出拼接到投影仪中，可以更好地捕捉到集成的视觉表征 SigLIP 高层次的语义特征和 DINOv2 提取的低级细粒度图像特征。

训练方案

最近的研究表明，基于它的研究 LLaVA 现有的训练范式(即只训练投影层的预对齐阶段和 LLM 每个骨干的微调阶段一次)，预对齐阶段可能是不必要的，而且微调后的模型仍然处于非拟合状态。因此，Cobra 放弃预对齐阶段，直接对整个阶段进行对齐 LLM 微调语言主干和投影仪。该微调过程在组合数据集上随机抽样两个周期，包括：

在 LLaVA v1.5 使用的混合数据集包括总数 655K 视觉多轮对话包括学术对话 VQA 样本，以及 LLaVA-Instruct 中间的视觉指令调整数据和 ShareGPT 中文纯文本指令调优数据。
LVIS-Instruct-其中包含4V 220K 由视觉对齐和上下文感知指令组成的图片 GPT-4V 生成。
LRV-Instruct，这是一个包含 400K 视觉指令数据集覆盖 16 视觉语言任务的目的是减少幻觉现象。

大约包括整个数据集 120 一万张图片，相应的多轮对话数据，以及纯文本对话数据。

实验

定量实验

本文提出了实验部分 Cobra 模型和开源 SOTA VLM 模型在基础 benchmark 基于同量级进行了比较和比较 Transformer 架构的 VLM 模型的回答速度。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 图生成速度和性能对比图

同时，Cobra 还有更多的模型 VQA-v2，GQA，VizWiz，TextVQA 四个开放 VQA 任务以及 VSR，POPE 两个闭合预测任务，共 6 个 benchmark 对分数进行比较。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图在 Benchmark 与其他开源模型进行比较

定性试验

此外 Cobra 也给出了两个 VQA 例子用定性说明 Cobra 在空间关系认知和降低模型幻觉两种能力方面具有优势。

? ? ? ? ? ? ? ? ? ? ? ? ? ?图 Cobra 在物体空间关系中判断与其他基线模型的示例

? ? ? ? ? ? ? ? ? ? ? ? ? ?图 Cobra 与其他关于视觉错觉现象的基线模型示例

在示例中，LLaVA v1.5 和 MobileVLM 都给出了错误的答案，但都给出了错误的答案 Cobra 特别是在第二个例子中，准确地描述了两个问题，Cobra 从机器人的模拟环境中准确识别图片。

消融实验

本文从性能和生成速度两个维度 Cobra 消融研究采用的方案。实验方案分别对投影仪、视觉编码器、LLM 语言干部进行了消融实验。?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 图消融实验的性能比较图

根据本文采用的投影器部分的消融实验结果 MLP 投影仪的效果明显优于减少视觉 token 提高运算速度的数量 LDP 同时，由于模块 Cobra 处理序列的速度和操作复杂性均优于 Transformer，在生成速度上 LDP 因此，模块没有明显的优势 Mamba 通过牺牲在类型模型中使用牲畜精度降低视觉效果 token 采样器的数量可能不必要。

? ? ? ? ? ? ? ? ? ? ? ? ? ? 图 Cobra 与其他模型在生成速度上的值进行比较

DINOV2显示了视觉编码器部分的消融结果特征的融合得到了有效的改善 Cobra 性能。在语言主干实验中，未经指令微调 Mamba 在开放式问答测试中，语言模型根本无法给出合理的答案，而是通过微调 Mamba 语言模型在各种任务中都能达到可观的表现。

结论

本文提出了 Cobra，它解决了现有依赖于二次计算复杂性的问题 Transformer 多模态大型语言模型在网络中的效率瓶颈。本文探讨了线性计算复杂性语言模型与多模态输入的结合。本文通过对不同模式融合方案的深入研究，成功优化了视觉与语言信息的融合 Mamba 语言模型的内部信息集成实现了更有效的多模态表征。实验表明，Cobra 它不仅显著提高了计算效率，而且在性能和先进模型方面也有所提高 LLaVA 特别是在克服视觉幻觉和空间关系的判断方面。它甚至显著减少了参数的数量。这部署了未来需要高频处理视觉信息的高性能环境 AI 基于视觉的机器人反馈控制等模型开辟了新的可能性。

以上是第一个基于Mamba的MLLM！详情请关注其他相关文章，如模型权重、培训代码等。！

阅读全文

上一篇：学习通网页禁粘贴？轻松破解有高招！
下一篇：Win10服务器管理器：轻松开启，管理无忧！

第一个基于Mamba的MLLM来了！模型权重、培训代码等都已开源-人工智能

首页 2024-07-11 23:45:17

最新文章

相关文章