来源:星火智游网 责编:网络 时间:2025-04-24 14:05:17
3月11日,通义实验室团队宣布开源R1-Omni模型,为全模态模型的发展带来了新的突破。该模型结合了强化学习与可验证奖励(RLVR)方法,专注于提升多模态情感识别任务中的推理能力和泛化性能。
R1-Omni的训练分为两个阶段。在冷启动阶段,团队使用包含580条视频数据的组合数据集进行微调,这些数据来自Explainable Multimodal Emotion Reasoning(EMER)数据集和HumanOmni数据集。这一阶段旨在为模型奠定基础推理能力,确保其在进入RLVR阶段前具备一定的多模态情感识别能力,从而保障后续训练的平稳性、效率与稳定性。
随后,在RLVR阶段,模型通过强化学习与可验证奖励机制进一步优化。该阶段的关键在于策略模型和奖励函数。策略模型处理视频帧和音频流组成的多模态输入数据,生成带有详细推理过程的候选响应,展示模型如何整合视觉和听觉信息以得出预测。奖励函数则受DeepSeek R1启发,分为精确率奖励和格式奖励两部分,共同形成最终奖励,既鼓励模型生成正确预测,又保证输出结构化且符合预设格式。
实验结果显示,R1-Omni在同分布测试集DFEW和MAFW上,相较于原始基线模型平均提升超过35%,相较于有监督微调(SFT)模型在未加权平均召回率(UAR)上提升高达10%以上。在不同分布测试集RAVDESS上,其加权平均召回率(WAR)和UAR均提升超过13%,展现出卓越的泛化能力。此外,R1-Omni还具有显著的透明性优势,通过RLVR方法,音频和视频信息在模型中的作用变得更加清晰可见,能够明确展示各模态信息对特定情绪判断的关键作用,为理解模型决策过程和未来研究提供了重要参考。
论文:
https://arxiv.org/abs/2503.05379
Github:
https://github.com/HumanMLLM/R1-Omni
模型:
https://www.modelscope.cn/models/iic/R1-Omni-0.5B
随着移动互联网的迅速发展,各类应用程序不断涌现,丰富了人们的日常生活。幸福宝8008app作为一款颇受欢迎的应用,不仅提供了多个功能,还
魅影直播间在B站的直播功能近年来逐渐受到广大用户的青睐。这不仅是因为平台的流量优势,更重要的是其提供了丰富的互动体验,这让主播与观
化学是一个充满神奇与魅力的领域,尤其是在探索金属元素及其化合物时,更是让人感受到无尽的惊喜。今天,我们将聚焦在“钢钢钢钢钢钠好多水
小莫烧麦原唱歌曲mp3免费听,此曲乃音韵之美,深得人心。诸君可于互联网上寻觅此曲之音频,多方平台齐聚,或可免费聆听,畅享其中妙趣。小
阿里通义发布R1-Omni开源模型 可显著增强多模态情感识别性能
最好玩的 Manus 复刻项目,GAIA 基准一马当先,完全开放源码随意尝试!
逍遥九重天梦境玩法全解析与攻略技巧分享,让你轻松掌握梦境秘境的乐趣与挑战
魔兽世界冰霜法师天赋加点攻略 详解冰法最佳加点选择与玩法心得
新一代人工智能技术有望早期识别脑部退化,从而有可能颠覆现有的痴呆症治疗方法
在月圆的夜晚如何有效地对付那些醉酒的鬼魂
阿里巴巴AI搜索引擎Accio用户数已突破百万 新增智能功能助力全球贸易新发展
王者荣耀狂铁的全新皮肤龙之律动究竟何时正式上线与玩家们见面呢?
江湖武林中枪法绝技的全面解析与技巧分享
单目视频拍摄中的运动平滑化:TrajectoryCrafter 实现流畅自然的相机移动效果