来源:星火智游网 责编:网络 时间:2025-04-23 14:27:48
2025年3月6日,北京智源人工智能研究院宣布开源多模态向量模型BGE-VL,这一成果标志着多模态检索领域的新突破。BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果,显著提升了多模态检索的性能。
BGE-VL的开发基于大规模合成数据集MegaPairs,该数据集通过结合多模态表征模型、多模态大模型和大语言模型,从海量图文语料库中高效挖掘多模态三元组数据。这一方法不仅具备优异的可扩展性,能够以极低成本持续生成多样化且高质量的数据,还大幅提升了数据质量。与传统人工标注数据相比,MegaPairs仅需1/70的数据量即可实现更优的训练效果。
在技术实现上,MegaPairs的构造分为两个关键步骤:首先,使用多种相似度模型从图像数据集中挖掘多样的图像对;其次,利用开源的多模态大模型和大语言模型合成开放域检索指令。通过这一方法,MegaPairs无需人工参与,即可扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。此次发布的版本涵盖了2600万条样本,为多模态检索模型的训练提供了丰富的数据支持。
基于MegaPairs数据集,智源BGE团队训练了3款不同尺寸的多模态检索模型,包括BGE-VL-Base、BGE-VL-Large和BGE-VL-MLLM。这些模型在多个任务上展现了远超以往方法的领先性能。在Massive Multimodal Embedding Benchmark(MMEB)的36个多模态嵌入评测任务中,BGE-VL在零样本性能和有监督微调后的性能上均实现了最优表现,证明了其良好的任务泛化能力。
在组合图像检索任务中,BGE-VL在CIRCO评测集上刷新了现有基准,大幅超越了谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点,而BGE-VL-Base模型以不到1/50的参数量超越了其他大模型底座的多模态检索器。
此外,研究还表明,MegaPairs数据集具有良好的可扩展性和高效性。随着数据规模的增加,BGE-VL模型表现出一致的性能增长趋势。与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模(0.5M)即可实现显著的性能优势。
项目主页:
https://github.com/VectorSpaceLab/MegaPairs
模型地址:
https://huggingface.co/BAAI/BGE-VL-MLLM-S1
自来也和纲手拔萝卜配音声音以其独特之韵味,令众人潜心于二者之互动。二者之声,乃是共鸣之道,情感之流,使人宛如置身于其境。二人虽在不
在当今这个信息爆炸的时代,网上的娱乐内容琳琅满目,其中漫画作为一种轻松、幽默的艺术形式,受到了众多年轻人的喜爱。尤其是歪歪㊙️羞羞
秋蝉漫画入口页面弹窗下拉式者,乃近来网络之新兴形式,旨在为众多漫画爱好者提供更加便捷之浏览体验。此一设计,非但省却繁杂之操作,且以
日产不断在汽车技术的创新上探索,2023年的无人区一线、二线和三线标志着无人驾驶技术的新阶段。在全球倡导绿色出行和智能交通的大背景下,
多模态检索实现新进展!智源推出开源多模态向量模型BGE-VL助力智能检索技术
天国拯救2长剑连招技巧分享与心得解析,助你掌握更高效的战斗连招方式
特朗普发布“加沙度假胜地”AI视频,制作者表示这是对当前政治形势的讽刺作品
Manus就邀请码被炒至5万元一事作回应: 从未进行推广活动,呼吁大家理智参与投资
洛克王国毛懒懒获取方法与捕捉技巧详解,助你轻松抓到毛懒懒
如何在凡人传说中有效提升角色属性和战斗能力的方法与技巧
Manus创始人肖弘:90后AI领域新秀相比前辈梁文峰更显年轻与活力
古剑奇谭OL游戏体验评测:在仙侠世界中寻觅深度与魅力的精彩冒险
江湖风云令的触发条件与步骤详解:揭示如何在江湖中生存与冒险
“星际迷航”中的未来科技成为现实!AI超声技术赢得百万美元大奖,心脏健康的定义将被彻底颠覆!