来源:星火智游网 责编:网络 时间:2025-04-19 05:53:37
小米技术官方微博宣布,小米大模型团队在音频推理领域取得了显著进展。他们在受到 DeepSeek-R1的启发后,率先将强化学习算法应用于多模态音频理解任务。团队在短短一周内便以64.5% 的 SOTA(State Of The Art)准确率,登顶国际权威的 MMAU 音频理解评测榜,并同步将相关技术开源。
MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集是一个测试音频推理能力的重要标准,涵盖了一万条语音、环境音和音乐样本,旨在考察模型在多种技能上的表现。人类专家在该评测集上的准确率为82.23%,而目前该榜单上表现最好的模型为 OpenAI 的 GPT-4o,准确率为57.3%,其后是 Google DeepMind 的 Gemini2.0Flash,准确率为55.6%。
在小米团队的研究中,他们最初使用了清华大学发布的 AVQA 数据集进行微调,取得了51.8% 的准确率。但真正的突破是在将 DeepSeek-R1的 Group Relative Policy Optimization(GRPO)算法应用到 Qwen2-Audio-7B 模型后,仅用 AVQA 的3.8万条训练样本就实现了64.5% 的准确率,超越了现有的商业模型。
研究团队发现,当在训练过程中强制模型输出推理过程时,准确率反而下降至61.1%。这表明显式的思维链输出可能不利于模型训练,强化学习的实时反馈机制更有助于模型锁定高质量答案的分布区域。尽管他们已经取得了显著的准确率,但仍然距离人类专家的水平存在差距。
小米大模型团队的实验结果不仅展示了强化学习在音频推理领域的独特优势,也为未来的研究提供了新的思路。他们还将训练代码、模型参数以及技术报告开源,方便学术界和产业界进行进一步的研究和交流。
训练代码:https://github.com/xiaomi-research/r1-aqa
模型参数:https://huggingface.co/mispeech/r1-aqa
技术报告:https://arxiv.org/abs/2503.11197
交互 Demo:https://120.48.108.147:7860/
划重点:
🔍 小米大模型团队通过强化学习算法在音频推理领域取得突破,准确率达到64.5%。
📈 MMAU 评测集是音频推理能力的重要标准,当前人类专家准确率为82.23%。
💡 研究结果表明,强化学习的实时反馈机制对模型训练更为有效,未来研究仍需深入探索。
随着移动互联网的迅速发展,各类应用程序不断涌现,丰富了人们的日常生活。幸福宝8008app作为一款颇受欢迎的应用,不仅提供了多个功能,还
魅影直播间在B站的直播功能近年来逐渐受到广大用户的青睐。这不仅是因为平台的流量优势,更重要的是其提供了丰富的互动体验,这让主播与观
化学是一个充满神奇与魅力的领域,尤其是在探索金属元素及其化合物时,更是让人感受到无尽的惊喜。今天,我们将聚焦在“钢钢钢钢钢钠好多水
小莫烧麦原唱歌曲mp3免费听,此曲乃音韵之美,深得人心。诸君可于互联网上寻觅此曲之音频,多方平台齐聚,或可免费聆听,畅享其中妙趣。小
小米大模型团队受到DeepSeek-R1启发,成功跻身音频推理MMAU榜首
英雄联盟段位等级分类及其详细图解,带你全方位了解各段位之间的差异
重生传说完整游戏攻略与全流程详解,助您轻松通关每个关卡
猎杀潜航OL:终极深海战斗体验,挑战无尽海洋的猎杀快感
烟雨江湖无遮大会支线攻略详解与通关技巧分享
深度探讨《WOW》游戏中的装备系统与最佳搭配策略
黄金网站9.1免费入口受热捧,引发网友热议:这个神秘入口背后的变革究竟有多巨大!
网络加速器在网络游戏中如何提升速度与稳定性的研究与探讨
LOL游戏故障修复手册:高效解决各类游戏问题的实用技巧与方法
大叔与母亲共同观看热门电视剧第三集,引发网友热议,宅男打工人纷纷感叹剧情发展真是意外且神奇!