来源:星火智游网 责编:网络 时间:2025-04-25 04:15:30
近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。
与 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。此外,在数学推理任务 GPQA 上,该模型取得61.7分 的优异成绩。
为实现这一突破,360智脑团队采用了两种创新训练方法。首先是 Curriculum SFT(渐进式监督微调),通过分阶段训练,让模型从简单数学问题逐步过渡到复杂问题,进一步增强逻辑推理能力。其次是 强化学习(RL),首次在14B级别推理模型上成功应用,不仅提升推理准确率,还确保其他技能基本无损。
此次发布不仅包括模型本身,还开源了 SFT数据、代码及技术报告,为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域的重大进展,或将推动AI推理能力的进一步普及与发展。
项目地址:https://github.com/Qihoo360/Light-R1
模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS
数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
随着移动互联网的迅速发展,各类应用程序不断涌现,丰富了人们的日常生活。幸福宝8008app作为一款颇受欢迎的应用,不仅提供了多个功能,还
魅影直播间在B站的直播功能近年来逐渐受到广大用户的青睐。这不仅是因为平台的流量优势,更重要的是其提供了丰富的互动体验,这让主播与观
化学是一个充满神奇与魅力的领域,尤其是在探索金属元素及其化合物时,更是让人感受到无尽的惊喜。今天,我们将聚焦在“钢钢钢钢钢钠好多水
小莫烧麦原唱歌曲mp3免费听,此曲乃音韵之美,深得人心。诸君可于互联网上寻觅此曲之音频,多方平台齐聚,或可免费聆听,畅享其中妙趣。小
360智脑团队成功重现Deepseek强化学习的显著成果,并正式推出开源模型Light-R1-14B-DS供社区使用
洛克王国电影:奇幻冒险之旅的神秘探险与友谊故事
富士康在第四季度利润实现增长,AI服务器需求强劲推动业绩复苏
微软正在针对Windows记事本进行AI功能测试:文本选取自动总结,帮助用户轻松提炼信息精髓
全面解析江湖各大职业武道大会的内容与精彩看点
中国眼科新突破!AI智能“小青”闪耀登场:为2600万青光眼患者提供24小时无缝健康监护,光明未来触手可及!
教育领域的重大突破!伴鱼AI私教系统惊艳上线:强势超越GPT,未来课堂的全新形态来了!
弓箭传说2:全面解析全新武器系统及其特殊属性和使用技巧
Prompts Playground 版本全新升级:全面优化功能并新增配置保存与共享能力
江湖风起云涌:小白在一个月内积累的实战经验与技巧分享