来源:星火智游网 责编:网络 时间:2025-04-19 19:53:29
2025年3月6日,北京智源人工智能研究院宣布开源多模态向量模型BGE-VL,这一成果标志着多模态检索领域的新突破。BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果,显著提升了多模态检索的性能。
BGE-VL的开发基于大规模合成数据集MegaPairs,该数据集通过结合多模态表征模型、多模态大模型和大语言模型,从海量图文语料库中高效挖掘多模态三元组数据。这一方法不仅具备优异的可扩展性,能够以极低成本持续生成多样化且高质量的数据,还大幅提升了数据质量。与传统人工标注数据相比,MegaPairs仅需1/70的数据量即可实现更优的训练效果。
在技术实现上,MegaPairs的构造分为两个关键步骤:首先,使用多种相似度模型从图像数据集中挖掘多样的图像对;其次,利用开源的多模态大模型和大语言模型合成开放域检索指令。通过这一方法,MegaPairs无需人工参与,即可扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。此次发布的版本涵盖了2600万条样本,为多模态检索模型的训练提供了丰富的数据支持。
基于MegaPairs数据集,智源BGE团队训练了3款不同尺寸的多模态检索模型,包括BGE-VL-Base、BGE-VL-Large和BGE-VL-MLLM。这些模型在多个任务上展现了远超以往方法的领先性能。在Massive Multimodal Embedding Benchmark(MMEB)的36个多模态嵌入评测任务中,BGE-VL在零样本性能和有监督微调后的性能上均实现了最优表现,证明了其良好的任务泛化能力。
在组合图像检索任务中,BGE-VL在CIRCO评测集上刷新了现有基准,大幅超越了谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点,而BGE-VL-Base模型以不到1/50的参数量超越了其他大模型底座的多模态检索器。
此外,研究还表明,MegaPairs数据集具有良好的可扩展性和高效性。随着数据规模的增加,BGE-VL模型表现出一致的性能增长趋势。与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模(0.5M)即可实现显著的性能优势。
项目主页:
https://github.com/VectorSpaceLab/MegaPairs
模型地址:
https://huggingface.co/BAAI/BGE-VL-MLLM-S1
自来也和纲手拔萝卜配音声音以其独特之韵味,令众人潜心于二者之互动。二者之声,乃是共鸣之道,情感之流,使人宛如置身于其境。二人虽在不
在当今这个信息爆炸的时代,网上的娱乐内容琳琅满目,其中漫画作为一种轻松、幽默的艺术形式,受到了众多年轻人的喜爱。尤其是歪歪㊙️羞羞
秋蝉漫画入口页面弹窗下拉式者,乃近来网络之新兴形式,旨在为众多漫画爱好者提供更加便捷之浏览体验。此一设计,非但省却繁杂之操作,且以
日产不断在汽车技术的创新上探索,2023年的无人区一线、二线和三线标志着无人驾驶技术的新阶段。在全球倡导绿色出行和智能交通的大背景下,
最新进展!智源推出全新开源多模态向量模型BGE-VL,推动多模态检索技术的突破性发展
独立游戏新作《太阳的尽头》上线Steam平台,现已推出免费试玩版本,快来体验!
龙之谷影舞者技能加点与装备搭配详细推荐指南
关于魔兽世界无法登录的详细解决方案,带你轻松解决登录问题
赛尔号骷髅法师技能分析与战术探讨 赛尔号骷髅法师全方位深度解析
英雄联盟全球先锋赛口令详细指南 - lol全球先锋赛中的所有口令汇总与解析
在迷你世界中,毒囊的用途及其对游戏进程的影响是什么?
洛克王国皮肤碎片怎么得
体验极致游戏操控:探讨PS4摇杆的重要性与优势
深入探讨QQ游戏挂机现象及其影响与发展趋势