谷歌DeepMind推出WebLI-100B新数据集：千亿级数据支持视觉语言模型的进一步提升

来源：星火智游网责编：网络时间：2025-02-19 14:20:01

近日，科技新闻界传来一项重大进展，谷歌DeepMind团队推出了一项名为WebLI-100B的数据集，这一数据集的规模达到了前所未有的千亿级别，旨在提升视觉语言模型（VLMs）在文化多样性和多语言性方面的表现。

在人工智能领域，视觉语言模型的发展依赖于大型数据集，这些数据集通常由数百万到数十亿的图像-文本对组成。这些数据集是模型学习连接图像和文本的基础，数据越多，模型在识别模式和提高准确性方面的能力就越强。然而，现有的数据集如Conceptual Captions和LAION等，尽管支持零样本分类和图像字幕生成等功能，但其增长速度已放缓，且存在样本质量低、语言偏差和多元文化代表性不足等问题。

为了克服这些限制，DeepMind的研究人员推出了WebLI-100B数据集。这一数据集包含了1000亿个图像-文本对，是之前数据集的十倍之大。WebLI-100B不仅规模庞大，更重要的是，它在文化多样性和多语言性方面取得了显著突破。通过捕获罕见的文化概念，WebLI-100B提高了模型在低资源语言和多样化表示等较少探索领域的性能。

与先前的数据集不同，WebLI-100B在构建过程中没有依赖严格的过滤策略，因为严格的过滤往往会删除重要的文化细节。相反，WebLI-100B专注于扩展数据，保留了语言和文化元素的广泛代表性，从而使其更具包容性。这一策略不仅提升了数据集的质量，还为模型提供了更丰富的训练素材。

为了分析数据缩放的影响，DeepMind的研究人员在WebLI-100B数据集的不同子集（1B、10B和100B）上进行了预训练模型的实验。实验结果表明，在完整数据集上训练的模型在文化和多语言任务中的表现优于在较小数据集上训练的模型。即使使用相同的计算资源，WebLI-100B也展现出了显著的性能提升。

研究还发现，将数据集大小从10B增加到100B对以西方为中心的基准测试的影响相对较小，但在文化多样性任务和低资源语言检索方面却带来了显著的改进。这一发现进一步证明了WebLI-100B在提升模型包容性和多语言理解能力方面的有效性。

WebLI-100B数据集的推出，标志着人工智能领域在视觉语言模型方面取得了重要进展。它不仅为模型提供了更丰富的训练数据，还通过增强文化多样性和多语言性，提高了模型的包容性和准确性。未来，随着WebLI-100B的广泛应用，我们有理由相信，视觉语言模型将在更多领域展现出更强大的能力。

同时，WebLI-100B的成功也为我们提供了宝贵的启示：在构建大型数据集时，应注重数据的多样性和包容性，避免过度依赖严格的过滤策略。只有这样，我们才能构建出更加智能、更加人性化的模型，为人类社会带来更多的福祉。

百度文心大模型4.5系列即将开放源码，6月30日正式启动发布活动

返回列表