谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性

xxn 阅读:18248 2025-02-14 16:02:16 评论:0

据IT之家报道,marktechpost科技媒体日前发布了一篇关于谷歌DeepMind团队发布WebLI-100B千亿级数据集的博文,强调通过增加文化多样性和多语言性,减少子组之间性能差异来提高包容性。

当前挑战

IT之家指出,机器学习需借助大型数据集来关联图像与文本,数据规模越大,模型识别模式、提高准确性的能力就相应增强。视觉语言模型(VLMs)在执行图像字幕和视觉问答等任务时依赖这些数据集。

视觉语言模型目前主要依赖Conceptual Captions和LAION等大型数据集,包含数百万到数十亿的图像-文本对。虽然这些数据集支持零样本分类和图像字幕生成,但发展已经放缓至约100亿对。

这一瓶颈限制了模型精度、包容性和多语言理解的进一步提升,现有方法基于网络爬取的数据存在样本质量低、语言偏差和多元文化代表性不足等问题。

WebLI-100B千亿级数据集

为解决视觉语言模型在文化多样性和多语言性方面的局限性,Google DeepMind的研究人员推出了WebLI-100B数据集,包含1000亿个图像-文本对,比之前的数据集大十倍。

WebLI-100B数据集涵盖了罕见的文化概念,提高了模型在低资源语言和多样化表示等领域的表现。不同于先前的数据集,WebLI-100B不依赖严格过滤(通常会删除重要文化细节),而是致力于数据的扩展。

该框架旨在通过在WebLI-100B数据集的不同子集(1B、10B和100B)上进行预训练模型,分析数据缩放的影响。

研究表明,在完整数据集上训练的模型在文化和多语言任务中的表现优于在较小数据集上训练的模型,尽管使用相同计算资源。WebLI-100B没有进行激进的过滤,而保留了广泛的语言和文化元素代表性,为其增加了包容性。

结果显示,将数据集规模从10B增加到100B对于西方中心基准测试影响微乎其微,但在文化多样性任务和低资源语言检索方面带来了显著改善。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容