360智脑团队成功再现Deepseek强化学习成果,发布全新开源模型Light-R1-14B-DS,推动AI技术进一步发展

近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。

QQ20250314-100519.png

与 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。此外,在数学推理任务 GPQA 上,该模型取得61.7分 的优异成绩。

为实现这一突破,360智脑团队采用了两种创新训练方法。首先是 Curriculum SFT(渐进式监督微调),通过分阶段训练,让模型从简单数学问题逐步过渡到复杂问题,进一步增强逻辑推理能力。其次是 强化学习(RL),首次在14B级别推理模型上成功应用,不仅提升推理准确率,还确保其他技能基本无损。

此次发布不仅包括模型本身,还开源了 SFT数据、代码及技术报告,为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域的重大进展,或将推动AI推理能力的进一步普及与发展。

项目地址:https://github.com/Qihoo360/Light-R1

模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS

数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData

猜你喜欢

如何设置幻兽帕鲁在死亡后不掉落物品的具体方法与步骤介绍
如何设置幻兽帕鲁在死亡后不掉落物品的具体方法与步骤介绍

  幻兽帕鲁游戏中,玩家在游戏时发现死亡以后东西全掉了,不少玩家想知道幻兽帕鲁死亡不掉落怎么设置?下面小编就为大家带来幻

江湖三象归元游戏玩法详解,这里教你怎么玩转这款热门游戏
江湖三象归元游戏玩法详解,这里教你怎么玩转这款热门游戏

在这就是江湖这款游戏中,三象归元是一个重要的系统,它允许玩家将7~9星的技能从红星状态升级为月亮状态,从而提升技能的主动

草书的独特魅力:在方人也字形的变幻中,你是否体悟到了其中的深邃意趣?
草书的独特魅力:在方人也字形的变幻中,你是否体悟到了其中的深邃意趣?

书法艺术领域内,方人也的草书作品犹如夜空中最亮的星,以其独到的韵味和创新精神吸引着无数目光。他的书法,不仅是对传统的一次

男生女生共同面对的青春期情感烦恼全解答:轻松愁愁愁的解决方案与建议
男生女生共同面对的青春期情感烦恼全解答:轻松愁愁愁的解决方案与建议

当青春期的荷尔蒙涌动,男生和女生们开始对彼此产生好奇和吸引力。随之而来的却是一系列情感上的困惑和烦恼。在这个关键时期,理

小罗莉乂的Ⅹ14se:体验一次让你爱不释手的手机升级旅程,乐享无穷!
小罗莉乂的Ⅹ14se:体验一次让你爱不释手的手机升级旅程,乐享无穷!

小罗莉乂的Ⅹ14se,这款手机最近在朋友群里热议,听说它不仅颜值高,性能也牛,大家纷纷开启了“真香模式”。你没听错,就是

探索吴湖帆的山水艺术:纸上墨韵与心灵的深度交融,感受艺术巨匠的内心旅程
探索吴湖帆的山水艺术:纸上墨韵与心灵的深度交融,感受艺术巨匠的内心旅程

在艺术的浩瀚星空中,吴湖帆无疑是一颗璀璨夺目的星辰,以其独特的艺术风格和深厚的文化底蕴照亮了中华文化的长卷。吴湖帆,这位

欢乐对决中最佳阵容搭配技巧与策略分析
欢乐对决中最佳阵容搭配技巧与策略分析

在欢乐对决这款游戏中,组建一个强大的协同阵容对于赢得比赛至关重要。本文将详细介绍如何构建和优化你的队伍,通过合理的英雄搭

少妪洗澡被强公日日澡:社会隐情与法律反思
少妪洗澡被强公日日澡:社会隐情与法律反思

少妪洗澡被强公日日澡事件的起因及背后隐情少妪洗澡被强公日日澡事件引起了广泛的关注与讨论,尤其是在社交媒体和新闻平台上。许

赵邯平书法作品再度获得广泛认可,中国国家博物馆为其杰出作品增添了新的收藏亮点
赵邯平书法作品再度获得广泛认可,中国国家博物馆为其杰出作品增添了新的收藏亮点

在书法艺术领域,赵邯平这个名字无疑是一颗璀璨的明星。赵邯平,笔名赵政,字翀泽,号黄坡居士,其室名唤作无极斋,是中国书法家

仙剑世界春鸟鸣啾啾冒险探索全攻略指南,带你开启奇妙旅程
仙剑世界春鸟鸣啾啾冒险探索全攻略指南,带你开启奇妙旅程

在开始你的春鸟鸣啾啾奇遇之前,首先需要对仙剑游戏的世界观有一个基本的了解。仙剑是一款充满中国传统文化元素的游戏,玩家将在