来源:星火智游网 责编:网络 时间:2025-04-28 18:54:26
近日,中国科学院自动化研究所与中科紫东太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)。
当前,图文大模型通常依赖 “预训练 + 监督微调” 的方法来提高对用户指令的响应能力,但这种方法在资源消耗和训练效率上都存在较大挑战。Vision-R1通过结合高质量的指令对齐数据和强化学习,创新性地改变了这一局面。该方法通过设计一种视觉任务评估驱动的奖励机制,为模型的目标定位能力提供了强有力的支持。
具体而言,Vision-R1的奖励机制包括四个核心部分:首先,它采用了多目标预测的方式,以确保在密集场景中有效评估预测质量;其次,设计了双重格式奖励,以解决长序列预测中的格式错误问题;再者,召回奖励鼓励模型尽可能多地识别目标;最后,精度奖励则确保模型生成的目标框质量更高。这些设计相互作用,形成了 “1+1>2” 的优化效果,使模型在复杂视觉任务中表现更为出色。
为了解决预测高质量目标框的挑战,研究团队还提出了一种渐进式规则调整策略,通过动态调整奖励计算规则,促使模型持续改进其性能。训练过程分为初学阶段和进阶阶段,逐步提高奖励标准,以实现从基础到高精度的转变。
在一系列测试中,Vision-R1在经典目标检测数据集 COCO 和多样场景的 ODINW-13上显示出卓越的性能,无论是基础性能如何,经过 Vision-R1训练后,模型的表现都大幅提升,进一步接近专业定位模型。这一方法不仅有效提升了图文大模型的视觉定位能力,同时也为未来的多模态 AI 应用提供了新的方向。
项目地址:https://github.com/jefferyZhan/Griffon/tree/master/Vision-R1
随着移动互联网的迅速发展,各类应用程序不断涌现,丰富了人们的日常生活。幸福宝8008app作为一款颇受欢迎的应用,不仅提供了多个功能,还
魅影直播间在B站的直播功能近年来逐渐受到广大用户的青睐。这不仅是因为平台的流量优势,更重要的是其提供了丰富的互动体验,这让主播与观
化学是一个充满神奇与魅力的领域,尤其是在探索金属元素及其化合物时,更是让人感受到无尽的惊喜。今天,我们将聚焦在“钢钢钢钢钢钠好多水
小莫烧麦原唱歌曲mp3免费听,此曲乃音韵之美,深得人心。诸君可于互联网上寻觅此曲之音频,多方平台齐聚,或可免费聆听,畅享其中妙趣。小
Vision-R1:借助强化学习技术提升视觉定位能力,图文模型性能显著提升达50%
Sync Labs 推出 Lipsync-2:全球首个实现零-shot嘴部动作同步的革命性模型
神仙道:嫦娥升仙所需的道具数量究竟有多少?
IBM推出全新z17大型机:每天可完成高达4500亿次AI推理,性能相比前代提升达50%
解析赛博朋克2077游戏中间歇性掉帧的原因与有效解决方案
国产人工智能发展迅猛!全新开源图像模型HiDream-I1亮相,参数高达17亿,助力未来科技创新
DNF传说地下城的具体位置及寻找方法详解,玩家必看指南
超自然行动组逍遥的获取方法与途径有哪些,你需要了解的详细指导
PokemonGym:AI挑战宝可梦Red,以仅450步的精准策略成功夺冠
Runway推出Gen-4 Turbo:革新AI视频生成技术,速度再次突破历史新高