鄂维南院士领衔新作:RAG不仅是大模型、参数存储和第三种记忆-人工智能

首页 2024-07-10 19:34:13

2.4B 的?Memory3比较大 LLM 和 RAG 性能更好的模型。

近年来,大型语言模型 (LLM) 因其非凡的性能而引起了前所未有的关注。然而, LLM 培训和推理成本高,人们一直在尝试通过各种优化方法来降低成本。

上海算法创新研究所、北京大学等机构的研究人员受到人脑记忆层次结构的启发,他们通过 LLM 配备显式记忆(一个比模型参数和 RAG 更便宜的记忆格式)来降低成本。从概念上讲,由于其大部分知识都被外化为显式记忆,因此 LLM 可享受较少的参数、培训和推理成本。
  • 论文地址:https://arxiv.org/pdf/2407.01178
  • 论文标题:Memory3 : Language Modeling with Explicit Memory

作为一个初步的概念证明,研究人员从零开始训练一个 2.4B 的 LLM,它比更大的 LLM 和 RAG 该模型获得了更好的性能,并实现了比 RAG 解码速度更高。该模型被命名为 因为在Memory3, LLM 显式记忆是继隐式记忆(模型参数)和工作记忆(上下文键值)之后的第三种记忆形式。
具体来说,本文介绍了一种新的记忆格式,即显式记忆,其特点是写入成本和读取成本相对较低。如图所示 1 模型首先将知识库(或任何文本数据集)转换为显式记忆,实现稀疏注意力键 - 然后在推理过程中调用这些内存,并将其集成到自我注意力层中。
新的记忆格式定义了新的记忆层次结构:
此外,本文还介绍了一种支持知识外化的记忆电路理论,并提出了两个阶段的预训练计划,使存储容易处理的记忆稀疏机制和促进记忆形成。

总结而言:

  • Memory3 使用显式记忆在推理过程中,减轻了模型参数记忆特定知识的负担;
  • 从构建的知识库中编码显式记忆,其中稀疏记忆格式保持了真实的存储大小;
  • 研究人员从头开始训练一个人 2.4B 非嵌入参数?Memory3 该模型的性能超过了更大的规模 SOTA 模型。它还比 RAG 性能更好,推理速度更快;
  • 另外,Memory3 提高事实性,减少幻觉,并能迅速适应专业任务。

方法介绍

记忆电路理论有助于确定哪些知识可以存储为显式记忆,哪些模型架构适合读写显式记忆。
研究人员将输入输出关系作为电路的内部机制,并将知识定义为输入输出关系及其电路。通过操纵这些电路,人们可以从 LLM 将许多知识分开,同时保持其功能完好无损。

Memory3:在架构方面,本文的目标是 Transformer LLM 设计一种显式记忆机制,使其写入和读取成本相对较低。另外,本文希望是对的 Transformer 架构的修改限制在尽可能小的范围内,不添加任何新的训练参数,所以大多数现有的 Transformer LLM 在几乎不进行微调的情况下,它们都可以转换为?Memory3 模型。简单的设计过程如下:

写入成本:在推理之前,LLM 将每个参考写入显式记忆,并将其保存在驱动器上。记忆是从注意层的键值向量中选择的,因此写入过程不涉及培训。每个引用都是独立处理的,以避免长时间注意上下文的成本。

读取成本:在推理过程中,显式记忆从驱动器中检索,并与通常的上下文键一起自注意读取。每个记忆都由少量注意力的少量键组成,大大降低了额外的计算GPU 存储、驱动器存储和加载时间。它允许 LLM 频繁检索多种参考,对解码速度的影响有限。

推理过程如图所示 9 所示,每当 LLM 生成 64 个 token 当它丢弃当前的记忆并使用它时,它会使用它 64 个 token 作为查询文本进行检索 5 新的记忆,并继续使用这些记忆进行解码。同样,在处理提示时,LLM 会为每 64 个 token 块检索 5 个记忆。每一块都会关注自己的记忆,不同块之间的记忆可能会有所不同。
写入和读取记忆:在推理过程中,LLM 检索到的显式记忆可以通过自注意层直接读取,方法是将其与上下文键值连接起来(图) 9)。具体来说,对于第一个 l 层层的每一个注意力 h,如果它被选为记忆头,那么它的输出 Y^( l,h ) 将会改变:
另外,这项研究使用并行位置编码所有显式记忆,也就是说,所有键都位于长度为的位置 128 在同一区间,如图所示 9 所示。

两阶段预训练:预训练由两个阶段组成,warmup 和持续训练。只有持续训练阶段涉及显式记忆,而且 warmup 阶段采用与普通预训练相同的格式。
图 13 绘制了 warmup 阶段训练损失和学习时间表。?
图 14 绘制了连续训练阶段的训练损失和学习时间表。?
实验结果

研究人员进行了评估?Memory3 模型的一般能力(基准任务)、对话能力、专业能力(法律和医学)和幻觉。此外,研究人员还测量了它?Memory3 解码速度,以及类似和更大的速度 SOTA LLM 以及 RAG 模型进行了比较。

一般能力的评价结果如下:结果表明,显式记忆提高了平均分数 2.51%。相比之下,Llama2-7B 与 13B 得分差距为 4.91%。可以使用显式记忆「有效的模型尺寸」提高 2.51/4.91 ≈ 51.1%。
接下来,作者进行了评估?Memory3 对话技巧的结果列在表中 18 在中间,表明模型以较少的参数优于 Vicuna-7B、Falcon-40B-Instruct 和 GLM2-6BChat。
目前,LLM 仍然面临着幻觉问题。从概念上讲,Memory3 它不应该很容易受到幻觉的影响,因为它的显式记忆直接对应于参考文本。为了评估幻觉,研究人员选择了两个英文数据集进行评估。结果如表所示 19 所示Memory3 在大多数任务中获得最高分。
使用显式记忆的一个好处是,LLM 更新其知识库可以轻松适应新的领域和任务。只需介绍与任务相关的参考?Memory3 在热启动的情况下,可以选择将知识库转化为显式记忆。然后,该模型可以利用这些新知识进行推理,跳过成本更高、可能损坏的微调过程,并且运行速度比 RAG 更快。图 4 这种成本降低已经被证明是可以促进的 LLM 快速部署各行业。
下表显示Memory3 性能优于大多数模型。
最后,研究人员通过每秒生成 token 数来评估?Memory3 解码速度或吞吐量。
了解更多信息,请参考原论文。

以上是鄂维南院士领衔的新作品:RAG不仅是大模型、参数存储,以及第三种记忆的详细内容,请关注其他相关文章!


p