全文约 3200 字,预计阅读时间 9 分钟
近年来,大语言模型(LLMs)凭借强大的推理能力在数学问题求解、逻辑推理和智能助手等领域展现出惊人潜力。然而,复杂任务需要模型进行冗长的“链式思考”(Chain-of-Thought, CoT),这虽然能提升准确性,却也带来了高昂的计算成本和推理延迟。尤其对于简单问题,过度的深度推理显得多余,浪费了宝贵的计算资源。如何让大模型学会根据任务复杂度和自身能力智能选择推理模式,成为了学术界和工业界共同关注的难题。
新加坡国立大学的研究团队(Gongfan Fang、Xinyin Ma、Xinchao Wang)在最新论文《Thinkless: LLM Learns When to Think》中提出了一种创新框架 Thinkless 和新的强化学习算法 DeGRPO 让大模型自主决定何时采用简洁回答、何时进行深度推理,显著提升了推理效率,同时保持高准确率。这一研究不仅为大模型的效率优化开辟了新路径,也为未来的智能系统设计提供了启发。本文将从Thinkless的创新点、实验方法、结果分析等角度,带你一探这一前沿研究的魅力。
创新点与贡献:让大模型学会“因题制宜”
Thinkless的核心创新在于赋予大语言模型自主选择推理模式的能力,打破了传统“一刀切”式推理的局限。研究团队提出了一个基于强化学习的框架,通过引入两个控制标记(和),让模型能够根据任务的复杂度和自身能力动态选择是生成简洁的直接回答,还是进行详细的链式推理。这种“因题制宜”的策略解决了传统推理模型在简单任务上过度推理的低效问题,同时在复杂任务中依然保持高准确率。
具体而言,Thinkless的贡献可以概括为以下几个方面:
首先,它提出了一个全新的混合推理范式,通过控制标记明确区分短回答和长推理模式,为模型的动态决策提供了清晰的机制。其次,研究团队设计了一种名为解耦组相对策略优化(Decoupled Group Relative Policy Optimization, DeGRPO)的强化学习算法,通过将控制标记的选择和回答内容的优化分开处理,解决了传统强化学习中因长短回答长度差异导致的模式崩溃问题。这种解耦设计确保了模型在训练过程中能够平衡效率与准确性,避免过度偏向某一种推理模式。此外,Thinkless在训练初期通过知识蒸馏(Distillation)对模型进行预热,使其能够同时掌握短回答和长推理的能力,为后续的强化学习奠定了坚实基础。
更值得一提的是,Thinkless考虑了三个关键因素:任务复杂性、模型能力以及用户对效率与准确性的权衡需求。通过强化学习的迭代优化,模型能够根据这些因素动态调整推理策略。例如,在面对简单的算术问题时,模型倾向于使用标记生成简洁回答;而在需要多步推理的复杂数学问题中,模型则会选择标记,展开详细的推理过程。这种智能化的决策机制不仅降低了推理成本,还提升了用户体验。
图1:Thinkless框架示意图 Thinkless通过和控制标记引导模型选择推理模式,结合解耦组相对策略优化(DeGRPO),实现模式选择与回答优化的平衡训练。
实验方法:从知识蒸馏到强化学习的完整流程
Thinkless的实现分为两个主要阶段:知识蒸馏预热阶段和强化学习优化阶段,每个阶段都精心设计,以确保模型能够高效学习并适应混合推理的需求。
在预热阶段,研究团队通过知识蒸馏让模型掌握生成短回答和长推理的能力。他们使用了两个专家模型:一个是擅长链式推理的DeepSeek-R1-671B,用于生成详细的长推理回答;另一个是优化了简洁回答的Qwen2.5-Math-1.5B-Instruct,用于生成短回答。基于这些专家模型,团队生成了一个包含长短回答对的合成数据集,并在DeepSeek-R1-Distill-Qwen-1.5B模型上进行监督微调(Supervised Fine-Tuning, SFT)。这一过程确保了模型能够根据控制标记和生成相应的回答风格,同时保持两种风格的生成概率均衡,为后续强化学习提供了多样化的起点。
图2:Thinkless训练流程 训练过程包括知识蒸馏阶段(左),使模型学会根据控制标记生成不同风格的回答;以及强化学习阶段(右),通过DeGRPO优化模式选择和回答准确性
在强化学习阶段,Thinkless采用了解耦组相对策略优化(DeGRPO)算法,核心在于将混合推理的学习目标分解为两个部分:模式选择(优化控制标记的选择)和回答优化(提升回答的准确性)。传统的组相对策略优化(GRPO)算法将控制标记和回答内容的优化统一处理,但由于长推理回答的 token 数量远多于短回答,导致控制标记的梯度信号被稀释,训练早期容易出现模式崩溃(即模型过度偏向短回答或长推理)。DeGRPO通过为控制标记和回答内容分配独立的权重(通过参数α调节),解决了这一问题,确保训练过程稳定且高效。
奖励模型的设计也颇为巧妙。研究团队定义了一个简单的奖励函数:
当模型选择并正确回答时,奖励为1.0;选择并正确回答时,奖励为1.0-γ(γ为偏向短回答的惩罚因子);回答错误时,奖励为-1.0。
这种设计鼓励模型优先选择短回答,同时保证复杂任务的准确性。训练数据主要来自DeepScaleR数据集(约4万个数学问题),评估则涵盖了多个数学数据集,包括AIME、Minerva Algebra、MATH-500和GSM8K,覆盖了从简单算术到复杂多步推理的广泛任务。
实验在单节点4块H100 GPU上进行,预热阶段的上下文长度为16K,强化学习阶段扩展到24K。强化学习训练仅需600步(step),使用AdamW优化器,学习率为1×10⁻⁶,批量大小为128。这种高效的训练设置展示了Thinkless在实际应用中的可行性。
实验结果:效率与准确性的双赢
Thinkless在多个数学数据集上的表现令人印象深刻,充分验证了其在推理效率和任务性能上的优势。实验结果显示,Thinkless能够在保持高准确率的同时,将长推理的使用率降低50%-90%,显著减少了 token 生成量和计算成本。
在GSM8K数据集(以简单数学问题为主)上,Thinkless仅将13.31%的查询分配给长推理模式,生成 token 数量从基线模型DeepSeek-R1-1.5B的1919减少到624,准确率却依然高达84.18%,接近基线模型的83.47%。这表明对于简单任务,Thinkless能够精准识别并采用高效的短回答模式。在Minerva Algebra数据集上,Thinkless将长推理使用率降至25.88%,token 数量从3029减少到1144,准确率仍达到94.59%,仅比基线模型低1%左右。而在更具挑战性的MATH-500和AIME数据集上,Thinkless分别将长推理使用率控制在51.56%和100%,确保了复杂任务的高准确率(MATH-500为81.84%,AIME为27.33%),展现了其根据任务难度灵活调整推理策略的能力。
图3:训练动态对比 图(a)显示传统GRPO因控制标记更新不平衡导致模式崩溃;图(b)展示DeGRPO通过解耦优化形成U形学习曲线,初期偏向长推理,后期逐渐增加短回答比例。
与现有方法相比,Thinkless展现了显著优势。传统模型合并(Merging)和CoT-Valve技术虽然也能压缩推理长度,但需要手动调整参数,且在不同数据集上的表现不稳定。例如,Merging-0.6在Minerva Algebra上表现良好,但在AIME上准确率显著下降。路由器(Router)方法依赖独立的难度评估模型,难以充分感知目标模型的能力,效果有限。而Thinkless通过强化学习动态优化策略,无需手动干预即可适应不同任务需求。
训练动态分析进一步揭示了DeGRPO的优越性。传统GRPO因长短回答的 token 数量差异,导致控制标记更新不平衡,训练早期即出现模式崩溃(如图3(a)所示,长推理样本在120步内骤减至10以下)。而DeGRPO通过解耦优化,形成了独特的U形学习曲线(图3(b)):初期因短回答准确率较低,模型倾向于长推理;随着训练深入,短回答准确率提升,模型逐渐增加短回答比例。这种动态调整确保了模式选择的合理性和回答质量的持续优化。
图4:控制标记权重的影响 较高的控制标记权重(α=0.5)加速了短回答模式的出现,但可能导致过早的模式分配,影响长期优化效果。
案例分析与未来展望
为了直观展示Thinkless的决策能力,研究团队在MATH-500数据集上分析了模型选择标记的概率分布(见图5)。结果显示,模型能够根据任务难度进行平滑且层次化的预测。简单算术问题(如“2+3=?”)通常被分配到短回答模式,概率接近0;而涉及多条件和逻辑推理的复杂问题则倾向于长推理模式,概率接近1.0。这种精细化的决策能力进一步验证了Thinkless在实际应用中的潜力。
图5:标记概率分布 在MATH-500数据集上,Thinkless根据任务难度预测标记的概率,简单算术问题倾向于短回答,复杂推理问题倾向于长推理。
尽管Thinkless取得了显著成果,研究团队也指出了其局限性。例如,预热阶段的简单监督微调可能导致初始模型性能略有下降,未来的改进方向包括探索更高效的模型合并或轻量级微调技术(如LoRA),以减少灾难性遗忘。此外,当前实验主要基于数学任务,未来可扩展到更广泛的领域,如科学、编程等,以实现更通用的混合推理能力。
总结
新加坡国立大学的Thinkless研究为大语言模型的推理效率优化提供了全新视角。通过强化学习和解耦组相对策略优化,Thinkless让模型学会了根据任务复杂度和自身能力智能选择推理模式,显著降低了长推理的使用率(50%-90%),同时保持了高准确率。这一成果不仅推动了高效推理模型的发展,也为未来智能系统的设计提供了宝贵启示。想了解更多技术细节?欢迎查阅论文原文[1]或访问代码仓库[2]!
参考资料[1]
论文原文: https://arxiv.org/abs/2505.13379
[2]
代码仓库: https://github.com/VainF/Thinkless