快手开源 KwaiCoder 自动思考模型
根据任务难度智能切换思考模式,显著提升代码与数学任务表现。
根据ithome报道,快手 Kwaipilot 团队近日开源了 KwaiCoder-AutoThink-preview 自动思考大模型,针对近期深度思考大模型存在的“过度思考”问题进行了深入研究。
团队提出了一种全新的自动思考模型训练范式,同时基于传统强化学习算法(GRPO),提出了带有过程监督的强化学习方法 Step-SRPO,以进一步提升模型在复杂任务中的表现。
据介绍,该模型融合了“思考”和“非思考”能力,号称“DeepSeek-V3 & R1 合体”,具备根据问题难度自动切换思考形态的能力。通过进行这种思考形态训练,模型在多个“思考”和“非思考”评测榜单上均实现了性能提升,其中在部分代码和数学类的任务上,开启自动思考模式下的模型得分提升高达 20 分左右。
官方表示,在部分榜单中,即使模型没有开启思考模式,受益于更优的推理形态,性能也有小幅上涨。
快手技术表示,Kwaipilot 未来将基于 preview 版本模型,进一步增强推理能力,支持更完善的思考中工具使用能力,也会将全部技术细节、训练方法开源。
(来源:ithome;图片由AI生成,使用OpenAI的DALL·E生成模型)
赞 (0)
三星呼吁用户激活最新防盗功能
上一篇
2025年06月06日 12:35
西门子 PAVE360 将支持 Arm Zena 计算子系统
下一篇
2025年06月06日 12:35