等不到OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了——人工智能

首页 2024-07-01 22:11:56

AIxiv专栏是本网站发布学术技术内容的专栏。在过去的几年里，AIxiv专栏收到了2000多份内容，覆盖了世界各大高校和企业的顶级实验室，有效地促进了学术交流和传播。假如你有一份优秀的工作要分享，欢迎提交或联系报告。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

华为蒙特利尔诺亚方舟实验室的康计坤、李信择、陈熙、 Amirreza Kazemi，陈博兴。

人工智能（AI）在过去的十年里，特别是在自然语言处理和计算机视觉领域，取得了很大的进步。然而，如何改进 AI 认知能力和推理能力仍然是一个巨大的挑战。

最近，一篇题为《MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time》论文提出了基于树搜索的推理时间能力提升方法 MindStar [1]，该方法在开源模型中 Llama-13-B 与 Mistral-7B 上面达到了近似闭源大模型 GPT-3.5 与 Grok-1 推理数学问题的能力。

论文标题：MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time
论文地址：https://arxiv.org/abs/2405.16265v2

MindStar 数学问题的应用效果：

? ? ? ? ? ? ? ? ? ? ? ? ? ?图 1 ：不同大型语言模型的数学准确性。LLaMA-2-13B 与数学性能相关 GPT-3.5 (4-shot) 类似，但节省了大约 200 倍计算资源。

1. 引言

基于模型规模的快速增长 Transformer 大型语言模型（LLMs）在指令遵循 [1,2]、编码辅助 [3,4] 和创意写作 [5] 其他领域表现出令人印象深刻的成就。然而，解锁 LLMs 解决复杂推理任务的能力仍然是一个巨大的挑战。最近的一些研究 [6,7] 试着监督微调（Supervised Fine-Tuning, SFT）通过将新的推理数据样本与原始数据集混合来解决这个问题 LLMs 学习这些样本的底层分布，并尝试模仿逻辑来解决未见的推理任务。虽然这种方法有性能改进，但它严重依赖于大量的训练和额外的数据准备 [8,9]。

Llama-3 报告 [10] 强调一个重要的观察：当面对具有挑战性的推理问题时，模型有时会产生正确的推理轨迹。这表明模型知道如何产生正确的答案，但很难选择。基于这一发现，我们提出了一个简单的问题：我们能通过帮助吗？ LLMs 选择正确的输出来增强他们的推理能力？为了探索这一点，我们用不同的奖励模型进行了实验 LLMs 输出选择。实验结果表明，步骤级的选择明显优于传统?CoT 方法。

2. MindStar 方法

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图 2 MindStar 算法架构图

我们引入了一个新的推理搜索框架 ——MindStar（M*），利用过程监督的奖励模型，将推理任务视为搜索问题（Process-supervised Reward Model, PRM），M * 有效导航推理树空间，识别近似最佳路径。结合束搜索（Beam Search, BS）和 Levin 树搜索（Levin Tree Search, LevinTS）进一步提高搜索效率，确保在有限的计算复杂性内找到最佳的推理路径。

2.1 过程监督奖励模型

过程监督奖励模型 (PRM) 设计目的是评估大语言模型 (LLM) 生成的中间步骤有助于选择正确的推理路径。该方法借鉴了其他应用 PRM 成功经验。具体来说，PRM 输入当前的推理路径和潜在的下一步，并返回奖励值。

PRM 通过考虑当前的推理轨迹来评估新的步骤，鼓励与整体路径的一致性和忠诚度。高奖励值表明，新步骤）可能是正确的给定的推理路径，因此扩展路径值得进一步探索。相反，低奖励值意味着新步骤可能不正确，这意味着遵循这条路径的解决方案可能不正确。

M* 算法包括迭代到找到正确的解决方案的两个主要步骤：

1. 推理路径扩展:基础在每次迭代中 LLM 产生当前推理路径的下一步。

2. 评价与选择：使用 PRM 评估生成步骤，并根据这些评估选择下一次迭代的推理路径。

2.2 扩展推理路径

在选择要扩展的推理路径后，我们设计了一个提示模板（Example 3.1），以从 LLM 收集下一步。如示例所示，LLM 以原始问题为例 {question}，以当前的推理路径为例 {answer}。请注意，在算法的第一次迭代中，选择的节点只包含问题的根节点，因此 {answer} 为空。对于推理路径，LLM 生成 N 将其作为当前节点的子节点附加到中间步骤中。在算法的下一步，将对这些新生成的子节点进行评估，并选择新的节点进一步扩展。我们还意识到，生成步骤的另一种方法是使用步骤标记 LLM 进行微调。然而，这可能会减少 LLM 更重要的是，这与本文的重点有关 —— 在不修改权重的情况下增强 LLM 推理能力相悖。

2.3 选择推理路径

扩展推理树后，我们使用预训练过程来监督奖励模型（PRM）评估每一个新生成的步骤。正如前面提到的，PRM 采用路径和步骤，并返回相应的奖励值。经过评估，我们需要一种树搜索算法来选择下一个要扩展的节点。在这项工作中，我们的框架并不依赖于特定的搜索算法，我们实例化了两种最佳优先搜索方法，即 Beam Search 和 Levin Tree Search。

3. 结果与讨论

在 GSM8K 和 MATH 数据集上的广泛评估显示，M * 开源模型(如显著提升) LLaMA-2)推理能力，其性能可以与更大的闭源模型(如 GPT-3.5 和 Grok-1)与此同时，模型的规模和计算成本大大降低。这些发现突出了将计算资源从微调转移到推理时间搜索的潜力，为未来高效推理增强技术的研究开辟了新的途径。

表 1 展示各种方案 GSM8K 和 MATH 对比推理基准的结果。每个项目的数字表示解决问题的百分比。符号 SC@32 表示在 32 候选结果中的自一致性， n-shot 表示少样本示例的结果。CoT-SC@16 指的是在 16 个思维链（CoT）自一致性在候选结果中。BS@16 代表束搜索方法，即涉及到每个步骤级别 16 个人候选结果，而 LevinTS@16 详细说明了使用相同数量候选人的结果 Levin 树木搜索方法。值得注意的是，值得注意的是，MATH 数据集上 GPT-4 最新的结果是 GPT-4-turbo-我们特别强调这一点，因为它代表了0409， GPT-4 家族中最好的表现。

图 3 我们研究了 M * 随着步骤级别候选人数量的变化，性能如何变化？我们选择 Llama-2-13B 分别选择束搜索作为基本模型（BS）作为搜索算法。

图 4 Llama-2 和 Llama-3 模型家族在 MATH 数据集中的规模定律。所有结果都来自它们的原始资源。我们使用它 Scipy 计算拟合曲线的工具和对数函数。

表 2 不同方法在回答问题时的平均水平 token 生产数量

4. 结论

本文介绍了 MindStar（M*），基于搜索的新颖推理框架，用于提高大型语言模型的预训练推理能力。将推理任务视为搜索问题并利用过程监督的奖励模型，M*?有效导航推理树空间，识别近似最佳路径。结合搜索和结束 Levin 树木搜索的理念进一步提高了搜索效率，并确保在有限的计算复杂性内找到最佳的推理路径。广泛的实验结果表明，M*?它显著提高了开源模型的推理能力，其性能可与更大的闭源模型相媲美，同时大大降低了模型的规模和计算成本。

这些研究结果表明，将计算资源从微调转移到推理时间搜索具有巨大的潜力，为未来高效推理增强技术的研究开辟了新的途径。

参考文献：

[1] Nisan Stiennon, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F Christiano. Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33:3008–3021, 2020.

[2] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.?

[3] Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, and Daxin Jiang. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023.

[4] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.

[5] Carlos Gómez-Rodríguez and Paul Williams. A confederacy of models: A comprehensive evaluation of llms on creative writing. arXiv preprint arXiv:2310.08433, 2023.

[6] Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T Kwok, Zhenguo Li, Adrian Weller, and Weiyang Liu. Metamath: Bootstrap your own mathematical questions for large language models. arXiv preprint arXiv:2309.12284, 2023.

[7] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, YK Li, Y Wu, and Daya Guo. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024.

[8] Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, and Jimmy Ba. Openwebmath: An open dataset of high-quality mathematical web text. arXiv preprint arXiv:2310.06786, 2023.

[9] Peiyi Wang, Lei Li, Zhihong Shao, RX Xu, Damai Dai, Yifei Li, Deli Chen, Y Wu, and Zhifang Sui. Math-shepherd: Verify and reinforce llms step-by-step without human annotations. CoRR, abs/2312.08935, 2023.

[10] Meta AI. Introducing meta llama 3: The most capable openly available llm to date, April 2024. URL https://ai.meta.com/blog/meta-llama-3/. Accessed: 2024-04-30.

以上是华为诺亚探索LLM推理秘密武器MindStar的详细内容，无法等待OpenAI的Q*。请关注其他相关文章！

阅读全文

上一篇：高效远程管理，3389端口批量桌面接入利器
下一篇：没有了

等不到OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了——人工智能

首页 2024-07-01 22:11:56

最新文章

相关文章