建设工程人员锁定网站,重庆那些网站,想找人做网站 要怎么选择,菜单 标签 wordpress摘要#xff1a;能够进行扩展的推理链#xff08;chain-of-thought reasoning#xff09;的推理语言模型#xff08;Reasoning Language Models#xff09;#xff0c;在需要复杂逻辑推理的任务上展现出了卓越的性能。然而#xff0c;对所有问题都应用复杂的推理过程常常… 摘要能够进行扩展的推理链chain-of-thought reasoning的推理语言模型Reasoning Language Models在需要复杂逻辑推理的任务上展现出了卓越的性能。然而对所有问题都应用复杂的推理过程常常会导致显著的计算效率低下特别是当许多问题本身就存在简单直接的解决方案时。这引发了这样一个开放性问题大型语言模型LLMs能否学会何时进行思考为了回答这一问题我们提出了 Thinkless这是一个可学习的框架能够使 LLM 根据任务的复杂性以及模型自身的能力自适应地在简短推理和长篇推理之间进行选择。Thinkless 在强化学习范式下进行训练并采用两种控制标记short 用于简洁的回答think 用于详细的推理。我们方法的核心是一种解耦的组相对策略优化Decoupled Group Relative Policy OptimizationDeGRPO算法该算法将混合推理的学习目标分解为两个部分1控制标记损失用于管理推理模式的选择2回答损失用于提高生成答案的准确性。这种解耦的公式化方法使得我们能够对每个目标的贡献进行精细控制稳定训练过程并有效防止了在普通 GRPO 中观察到的崩溃现象。在经验性实验中Thinkless 在多个基准测试如 Minerva Algebra、MATH-500 和 GSM8K上能够将长链推理的使用减少 50% - 90%显著提高了推理语言模型的效率。 目录
一、背景动机
二、核心贡献
三、实现方法
3.1 基于SFT的蒸馏
3.2 强化学习
四、实验结论
4.1 准确率和推理效率提升
4.2 DeGRPO 训练分析 一、背景动机
大模型通过链式思考在处理复杂的推理任务中有明显的效果这些模型通过链式思考chain-of-thought reasoning生成中间步骤最终得出答案。然而这种复杂的推理过程在处理简单问题时会导致不必要的计算开销例如增加内存占用和计算成本。
该文章提出了 Thinkless这是一个可学习的框架能够使 LLM 根据任务的复杂性以及模型自身的能力自适应地在简短推理和长篇推理之间进行选择。Thinkless 在强化学习范式下进行训练并采用两种控制标记short 用于简洁的回答think 用于详细的推理。 二、核心贡献
论文题目Thinkless: LLM Learns When to Think
论文地址https://arxiv.org/pdf/2505.13379
1、提出Thinkless框架Thinkless是一个可学习的框架使LLMs能够根据任务复杂性和模型自身能力自适应地选择短形式short-form和长形式long-form推理。
2、设计了DeGRPO强化学习算法该算法将混合推理的学习目标分解为两个部分
控制推理模式的选择提高生成答案的准确性。这种解耦方法能够平衡两个目标的贡献稳定训练过程并有效防止模式崩溃。
3、在多个基准测试如Minerva Algebra、MATH-500和GSM8K中Thinkless能够将长链推理的使用减少50%到90%显著提高了推理语言模型的效率。 三、实现方法
Thinkless的实现分为两个阶段蒸馏Distillation 和 强化学习Reinforcement Learning。
3.1 基于SFT的蒸馏
目标蒸馏阶段的目标是使模型能够生成两种风格的回复短形式short-form和长形式long-form。数据集使用推理模型和Instruct模型来生成两种类型的回复。 推理模型Reasoning Model选择一个能够生成详细推理链的模型例如 DeepSeek-R1-671B。该模型通过逐步推理生成长形式响应。 指令跟随模型Instruction-Following Model选择一个优化用于生成简洁答案的模型例如 Qwen2.5-Math-1.5B-Instruct。 训练使用监督微调Supervised Fine-Tuning, SFT对目标模型进行训练使其能够根据控制标记think和short生成不同风格的响应。
3.2 强化学习
目标训练模型根据输入查询的复杂性和模型自身能力选择合适的推理模式。控制标记使用两个控制标记 think和short分别表示长形式和短形式推理。奖励函数 如果选择short且答案正确奖励为1.0。如果选择think且答案正确奖励为1.0 - γγ 0偏好短形式答案。如果答案错误奖励为-1.0。 DeGRPO算法 将学习目标分解为两个部分推理模式选择Mode Selection和响应准确性提升Accuracy Improvement。 模式选择Mode Selection控制标记 c 的损失用于决定推理模式。 准确性提升Accuracy Improvement响应标记 a 的损失用于提高生成答案的准确性。 通过引入权重系数 α平衡控制标记和响应标记的贡献避免模式崩溃。 四、实验结论
4.1 准确率和推理效率提升 在 Minerva Algebra 数据集上Thinkless 将长链推理的使用减少到25%在 GSM8K 数据集上减少到13.31%显著提高了推理效率。 Thinkless 能够根据问题的复杂度自适应地选择推理模式。对于简单问题模型倾向于选择短形式推理对于复杂问题模型则选择长形式推理。 在减少推理长度的同时Thinkless 保持了较高的准确率。例如在 Minerva Algebra 数据集上Thinkless 的准确率达到了94.59%仅比全长链推理模型低1%。 与现有的混合推理方法相比Thinkless 在多个数据集上表现更好。例如在 AIME 2024 数据集上Thinkless 的准确率达到27.33%而基于路由器的方法准确率仅为16.67%。
4.2 DeGRPO 训练分析 在标准 GRPO 中模型在训练初期可能会过度偏好长链或短链推理导致模式崩溃。而 DeGRPO 算法通过解耦训练目标有效避免了这一问题。 DeGRPO 算法在训练过程中表现出U形学习曲线。初始阶段长链推理的使用比例较高随着训练的进行短链推理的准确率逐渐提高模型开始更多地选择短链推理最终达到平衡。 五、总结
本文提出了Thinkless框架其通过强化学习使LLMs能够自适应地选择推理模式。此外设计了设计了DeGRPO强化学习算法它通过解耦推理模式选择和响应准确性提升平衡了两个学习目标的贡献。实验结果表明Thinkless能够显著减少长链推理的使用提高推理效率同时保持较高的准确性。