AIxiv专栏是本网站发布学术技术内容的专栏。在过去的几年里,AIxiv专栏收到了2000多篇报道,覆盖了世界各大高校和企业的顶级实验室,有效地促进了学术交流和传播。如果您有优秀的工作要分享,请提交或联系报告。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。
近几年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,目前作为许多下游任务的基本模型 MLLM 众所周知 Transformer 该网络具有较低效的二次计算复杂性。为了提高这种基本模型的效率,大量的实验表明:(1)Cobra 最先进的计算效率高的方法(例如,LLaVA-Phi,TinyLLaVA 和 MobileVLM v2)具有极具竞争力的性能,由于其竞争力 Cobra 线性序列建模,速度更快。(2)有趣的是,关闭集挑战性预测基准的结果显示,Cobra 在克服视觉错觉和空间关系判断方面表现良好。(3)值得注意的是,Cobra 即使是参数数量也只有 LLaVA 的 43% 在左右的情况下,也取得了和 LLaVA 性能相当。大语言模型(LLMs)仅限于语言交互,限制了他们处理更多样化任务的适应性。多模态理解对于增强模型有效应对现实世界挑战的能力至关重要。因此,为了纳入多模态信息处理能力,研究人员正在积极拓展大型语言模型。视觉 - 语言模型(VLMs)如 GPT-4、LLaMA-Adapter 和 LLaVA 为了增强,已经开发出来了 LLMs 视觉理解能力。然而,以往的研究主要试图通过类似的方法获得高效率 VLMs,即保持基于注意力的注意力 Transformer 在结构不变的情况下,减少基本语言模型的参数或视觉 token 的数量。本文提出了直接采用状态空间模型的不同视角(SSM)作为骨干网络,得到了线性计算的复杂性 MLLM。此外,本文还探索和研究了各种模态集成方案,以创建有效的多模态 Mamba。具体来说,本文采用 Mamba 作为语言模型 VLM 它已经显示了基本模型 Transformer 语言模型的竞争性能,但推理效率更高。测试显示 Cobra 与参数量级相比,推理性能与参数量级相比 MobileVLM v2 3B 和 TinyLLaVA 3B 快 3 倍至 4 倍。即使参数更多,参数也更多 LLaVA v1.5 模型(7B 与参数相比,Cobra 参数数量仍然可以约为 43% 在几个基准测试中实现匹配的性能。
? ? ? ? ? ? ? ? ? ? ? ? ? ? 图 Cobra 和 LLaVA v1.5 7B 在生成速度方面 Demo
- 对现有多模态大型语言模型进行了调查(MLLMs)通常依赖于 Transformer 该网络显示了二次方计算的复杂性。本文介绍了解决这一低效问题的方法 Cobra,一种具有线性计算复杂性的新颖方法 MLLM。
- 通过对各种模态集成方案的优化,对各种模态集成方案进行了深入探讨 Mamba 视觉与语言信息在语言模型中的整合。本文通过实验探索了不同集成策略的有效性,并确定了产生最有效的多模态表达方法。
- 进行了广泛的实验和评估 Cobra 旨在提高基础 MLLM 并行研究计算效率的性能。值得注意的是,Cobra 即使在参数较少的情况下,也实现了和 LLaVA 性能相当,突出了其效率。
- 原文链接:https://arxiv.org/pdf/2403.14520v2.pdf
- 项目链接:https://sites.google.com/view/cobravlm/
- 论文标题:Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
Cobra 投影仪采用经典的视觉编码器,连接两个模式 LLM 由语言主干组成 VLM 结构。LLM 采用了主干部分 2.8B 参数预训练 Mamba 语言模型,这个模型在 600B token 数量的 SlimPajama 在数据集上进行了预训练,对话数据的指令进行了微调。
? ? ? ? ? ? ? ? ? ? ? ? ? ?图 Cobra 网络结构图与 LLaVA 工作不同的是,Cobra 采用了 DINOv2 和 SigLIP 通过将两个视觉编码器的输出拼接到投影仪中,可以更好地捕捉到集成的视觉表征 SigLIP 高层次的语义特征和 DINOv2 提取的低级细粒度图像特征。最近的研究表明,基于它的研究 LLaVA 现有的训练范式(即只训练投影层的预对齐阶段和 LLM 每个骨干的微调阶段一次),预对齐阶段可能是不必要的,而且微调后的模型仍然处于非拟合状态。因此,Cobra 放弃预对齐阶段,直接对整个阶段进行对齐 LLM 微调语言主干和投影仪。该微调过程在组合数据集上随机抽样两个周期,包括:
- 在 LLaVA v1.5 使用的混合数据集包括总数 655K 视觉多轮对话包括学术对话 VQA 样本,以及 LLaVA-Instruct 中间的视觉指令调整数据和 ShareGPT 中文纯文本指令调优数据。
- LVIS-Instruct-其中包含4V 220K 由视觉对齐和上下文感知指令组成的图片 GPT-4V 生成。
- LRV-Instruct,这是一个包含 400K 视觉指令数据集覆盖 16 视觉语言任务的目的是减少幻觉现象。
大约包括整个数据集 120 一万张图片,相应的多轮对话数据,以及纯文本对话数据。本文提出了实验部分 Cobra 模型和开源 SOTA VLM 模型在基础 benchmark 基于同量级进行了比较和比较 Transformer 架构的 VLM 模型的回答速度。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 图 生成速度和性能对比图同时,Cobra 还有更多的模型 VQA-v2,GQA,VizWiz,TextVQA 四个开放 VQA 任务以及 VSR,POPE 两个闭合预测任务,共 6 个 benchmark 对分数进行比较。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图 在 Benchmark 与其他开源模型进行比较此外 Cobra 也给出了两个 VQA 例子用定性说明 Cobra 在空间关系认知和降低模型幻觉两种能力方面具有优势。
? ? ? ? ? ? ? ? ? ? ? ? ? ?图 Cobra 在物体空间关系中判断与其他基线模型的示例
? ? ? ? ? ? ? ? ? ? ? ? ? ?图 Cobra 与其他关于视觉错觉现象的基线模型示例在示例中,LLaVA v1.5 和 MobileVLM 都给出了错误的答案,但都给出了错误的答案 Cobra 特别是在第二个例子中,准确地描述了两个问题,Cobra 从机器人的模拟环境中准确识别图片。本文从性能和生成速度两个维度 Cobra 消融研究采用的方案。实验方案分别对投影仪、视觉编码器、LLM 语言干部进行了消融实验。?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 图 消融实验的性能比较图根据本文采用的投影器部分的消融实验结果 MLP 投影仪的效果明显优于减少视觉 token 提高运算速度的数量 LDP 同时,由于模块 Cobra 处理序列的速度和操作复杂性均优于 Transformer,在生成速度上 LDP 因此,模块没有明显的优势 Mamba 通过牺牲在类型模型中使用牲畜精度降低视觉效果 token 采样器的数量可能不必要。
? ? ? ? ? ? ? ? ? ? ? ? ? ? 图 Cobra 与其他模型在生成速度上的值进行比较DINOV2显示了视觉编码器部分的消融结果 特征的融合得到了有效的改善 Cobra 性能。在语言主干实验中,未经指令微调 Mamba 在开放式问答测试中,语言模型根本无法给出合理的答案,而是通过微调 Mamba 语言模型在各种任务中都能达到可观的表现。本文提出了 Cobra,它解决了现有依赖于二次计算复杂性的问题 Transformer 多模态大型语言模型在网络中的效率瓶颈。本文探讨了线性计算复杂性语言模型与多模态输入的结合。本文通过对不同模式融合方案的深入研究,成功优化了视觉与语言信息的融合 Mamba 语言模型的内部信息集成实现了更有效的多模态表征。实验表明,Cobra 它不仅显著提高了计算效率,而且在性能和先进模型方面也有所提高 LLaVA 特别是在克服视觉幻觉和空间关系的判断方面。它甚至显著减少了参数的数量。这部署了未来需要高频处理视觉信息的高性能环境 AI 基于视觉的机器人反馈控制等模型开辟了新的可能性。以上是第一个基于Mamba的MLLM!详情请关注其他相关文章,如模型权重、培训代码等。!
p