来源:星火智游网 责编:网络 时间:2025-04-19 01:16:45
近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。
与 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。此外,在数学推理任务 GPQA 上,该模型取得61.7分 的优异成绩。
为实现这一突破,360智脑团队采用了两种创新训练方法。首先是 Curriculum SFT(渐进式监督微调),通过分阶段训练,让模型从简单数学问题逐步过渡到复杂问题,进一步增强逻辑推理能力。其次是 强化学习(RL),首次在14B级别推理模型上成功应用,不仅提升推理准确率,还确保其他技能基本无损。
此次发布不仅包括模型本身,还开源了 SFT数据、代码及技术报告,为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域的重大进展,或将推动AI推理能力的进一步普及与发展。
项目地址:https://github.com/Qihoo360/Light-R1
模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS
数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
随着移动互联网的迅速发展,各类应用程序不断涌现,丰富了人们的日常生活。幸福宝8008app作为一款颇受欢迎的应用,不仅提供了多个功能,还
魅影直播间在B站的直播功能近年来逐渐受到广大用户的青睐。这不仅是因为平台的流量优势,更重要的是其提供了丰富的互动体验,这让主播与观
化学是一个充满神奇与魅力的领域,尤其是在探索金属元素及其化合物时,更是让人感受到无尽的惊喜。今天,我们将聚焦在“钢钢钢钢钢钠好多水
小莫烧麦原唱歌曲mp3免费听,此曲乃音韵之美,深得人心。诸君可于互联网上寻觅此曲之音频,多方平台齐聚,或可免费聆听,畅享其中妙趣。小
360智脑团队成功复现Deepseek在强化学习领域的卓越表现,正式发布开源模型Light-R1-14B-DS
老滚5游戏中通过一键操作快速获取NPC尸体的方法分享
银色北伐军声望系统任务步骤开启详解与攻略分享
问道游戏名称的多样选择与深度解析,带你了解每一个名字背后的含义与特色
月圆之夜修女怎么玩
三国演义经典时刻:赵云在长坂坡勇敢救出阿斗的游戏剧情深度解析
AI流量霸主:ChatGPT荣登全球十大网站,却几乎未能分享流量的怪圈
详细解析WOW宠物对战机制与升级策略,助你轻松掌握高效培养宠物的技巧
PSP3000掌中宝:深入探讨PSP3000的电影播放功能与使用体验
LOL手游中的各个段位玩家人数比例分析及其影响因素