通义发布QwenLong-L1, 长上下文大型推理模型, 强在哪里?
- 2025-06-16 22:54:02
- 908
为了解决大型推理模型如何将 LRM 扩展至通过强化学习有效地处理和推理长上下文输入的难题,通义智文提出了 QwenLong-L1 框架,该框架通过渐进式上下文扩展将短上下文 LRM 适配到长上下文场景。具体而言,就是利用预热监督微调 (SFT) 阶段建立稳健的初始策略,然后采用课程引导的分阶段强化学习技术来稳定策略演化,并采用难度感知的回顾性采样策略来激励策略探索。
首先需要知道,它解决了什么问题?
虽然最近的大型推理模型 (LRM)(例如 OpenAI 的 o1)通过强化学习展现出了令人印象深刻的推理能力,但这些改进仅限于短上下文任务(约 4K 个 token)。
长上下文推理强化学习面临两大关键挑战:训练效率不理想,由于熵值降低较多导致奖励得分提升较慢;优化过程不稳定,由于较长输出的方差较大,导致 KL 散度波动较大。
挑战在于,如何扩展这些模型以处理长上下文输入(超过 12 万个 token)同时保持强大的推理能力仍未得到解决。这对于需要处理大量文档、进行深入研究或处理信息密集型环境的实际应用尤其成问题,因为在这些环境中,模型既需要从长上下文中检索相关信息,又需要执行多步推理。
它是如何解决这个问题的?
QwenLong-L1 是一个渐进式上下文扩展框架,该框架集成了群体相关强化学习算法、混合奖励机制和渐进式上下文扩展策略,能够稳定地从短上下文到长上下文的 LRM 进行自适应,并具备强大的上下文基础和多步推理能力,可以系统地将短上下文推理模型适应长上下文场景。
他们的方法包括三个关键组成部分:
首先,预热监督微调 (SFT) 阶段,用于建立强大的初始策略;
其次,课程指导的分阶段强化学习技术,在训练阶段逐步增加上下文长度以稳定优化;
第三,采用难度感知的回顾性抽样策略,优先考虑具有挑战性的样本,以鼓励策略探索。他们还实施了混合奖励机制,将基于规则的验证与 LLM 作为评判者的评估相结合,以平衡准确率和召回率。
主要发现是什么?
QwenLong-L1 在七个长上下文文档问答基准测试中取得了领先的性能,其中 32B 模型的表现超过OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗舰模型,甚至与 Claude-3.7-Sonnet-Thinking 的性能相当。研究表明,渐进式上下文缩放可以在训练过程中实现更高的熵并稳定 KL 散度,而强化学习则自然地培养了专门的长上下文推理行为,例如基础推理、子目标设定、回溯和验证,从而提升了最终性能。
为什么这很重要?
这使得 LRM 在需要大量上下文处理的实际应用中具有实用价值。这项研究为长上下文推理强化学习提供了首个系统性框架,解决了训练效率和优化稳定性方面的关键挑战。这一进展为人工智能系统打开了大门,使其能够进行自动化科学研究、分析长视频,以及处理复杂的信息密集型任务,这些任务需要上下文基础和对海量信息进行复杂的推理。
- 上一篇:球星要在少林寺剃发修行天
- 下一篇:加州再起诉特朗普政府