本文的核心内容是探讨将预训练数据规模扩展到1000亿对视觉语言模型（VLMs）性能的影响

研究团队通过构建一个包含1000亿图像-文本对的新型数据集WebLI100B，对模型在不同数据规模下的表现进行了实证研究。研究发现，尽管在传统的西方中心分类和检索基准测试中，模型性能在1000亿规模的数据上趋于饱和，但在文化多样性和多语言能力方面，尤其是低资源语言上，1000亿规模的数据带来了显著的提升。此外，研究还发现，通过质量过滤（如使用CLIP）减少预训练数据集的大小可能会降低数据聚焦文化多样性的代表性。因此，文章强调，尽管传统基准测试可能不会从1000亿规模的噪声网络数据中显著受益，但这一数据规模对于构建真正包容的多模态系统至关重大。背景知识 • 数据规模与模型性能的关系：文章提到，数据规模与模型性能之间一般遵循幂律关系，即增加数据量可以带来性能的提升，但这种提升会逐渐减少。 • 现有数据集的局限性：尽管已有数据集如LAION-400M 2B 5B等推动了VLMs的发展，但最大的数据集也仅停留在约100亿图像-文本对，这促使研究者探索更大规模数据集的潜力。研究方法 • 数据集构建：研究者构建了WebLI100B数据集，包含1000亿图像-文本对，是现有最大数据集的十倍。数据集通过从网络上收集图像和文本对构建，仅进行基本的数据过滤，如移除有害图像和个人身份信息（PII）。 • 模型训练：使用SigLIP模型，分别在1亿、100亿和1000亿数据规模上进行训练，模型大小包括ViT-B 16、ViT-L 16和ViT-H 14。 • 评估基准：评估模型在多种基准上的性能，包括传统的西方中心任务（如ImageNet、COCO Captions）和衡量包容性的任务（如Dollar Street、GeoDE、GLDv2）。实验结果 • 传统基准测试：在ImageNet和COCO Captions等传统基准测试中，从100亿增加到1000亿数据规模，模型性能提升有限，统计上没有显著差异。 • 文化多样性：在Dollar Street和GeoDE等文化多样性基准测试中，1000亿数据规模带来了显著的性能提升。例如，ViT-L和ViT-H在Dollar Street 10-shot分类任务上分别提升了5.8%和5.4%。 • 多语言能力：在Crossmodal-3600零样本检索任务中，低资源语言从1000亿数据规模中受益更多，性能提升明显。 • 公平性：尽管数据规模增加到1000亿，但模型在性别和职业关联上的偏见并未减少，表明需要采取特定的偏见缓解策略。 • 数据质量过滤：使用CLIP过滤器进行数据过滤虽然在西方中心任务上提升了性能，但在文化多样性任务上表现不佳，表明数据过滤可能会降低数据集的多样性。 • 语言再平衡：通过增加低资源语言的比例，模型在这些语言上的性能有所提升，但高资源语言的性能略有下降，整体多语言基准测试结果有所改善。关键结论 • 数据规模的重大性：1000亿规模的数据对于提升VLMs在文化多样性和多语言能力方面至关重大，尤其是在低资源语言上。 • 数据过滤的影响：数据过滤可能会降低数据集的多样性，需要开发新的数据过滤技术和训练方法，以提高模型的包容性。 • 公平性挑战：尽管数据规模增加，但模型在性别和职业关联上的偏见问题依旧存在，需要进一步的研究和策略来解决。未来工作文章提议未来的研究可以探索新的数据过滤技术，以在不牺牲数据多样性的情况下提高数据质量。同时，也需要进一步研究如何通过训练方法和架构设计来提高模型的包容性。本文的核心内容是探讨将预训练数据规模扩展到1000亿对视觉语言模型（VLMs）性能的影响