CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强

0次浏览发布时间：2025-04-07 17:46:00

【导读】LeCun谢赛宁等研究人员通过新模型Web-SSL验证了SSL在多模态任务中的潜力，证明其在扩展模型和数据规模后，能媲美甚至超越CLIP。这项研究为无语言监督的视觉预训练开辟新方向，并计划开源模型以推动社区探索。

最近AI圈最火的模型非GPT-4o莫属，各种风格图片持续火爆全网。

如此强悍的图片生成能力，得益于GPT-4o本身是一个原生多模态模型。

从最新发布的LLM来看，多模态已经成为绝对的主流。

在多模态领域，视觉表征学习正沿着两条采用不同训练方法的路径发展。

其中语言监督方法，如对比语言-图像预训练（CLIP），利用成对的图像-文本数据来学习富含语言语义的表示。

自监督学习（SSL）方法则仅从图像中学习，不依赖语言。

在刚刚发布的一项研究中，杨立昆、谢赛宁等研究人员探讨了一个基本问题：语言监督对于多模态建模的视觉表征预训练是否必须？

论文地址：
https://arxiv.org/pdf/2504.01017

研究团队表示，他们并非试图取代语言监督方法，而是希望理解视觉自监督方法在多模态应用上的内在能力和局限性。

尽管SSL模型在传统视觉任务（如分类和分割）上表现优于语言监督模型，但在最近的多模态大语言模型（MLLMs）中，它们的应用却较少。

部分原因是这两种方法在视觉问答（VQA）任务中的性能差距（图1），特别是在光学字符识别（OCR）和图表解读任务中。

除了方法上的差异，两者在数据规模和分布上也存在不同（图1）。

CLIP模型通常在网络上收集的数十亿级图像-文本对上进行训练，而SSL方法则使用百万级数据集，如ImageNet，或具有类似ImageNet分布的数亿规模数据。

图1结果表明，通过适当扩展模型和数据规模，视觉SSL能够在所有评估领域（甚至包括OCR和图表任务）中匹配语言监督模型的性能

作为本文共同一作的David Fan兴奋的表示，他们的研究表明，即便在OCR/Chart VQA上，视觉SSL也能具有竞争力！

正如他们新推出的完全在网页图像上训练、没有任何语言监督的Web-SSL模型系列(1B-7B参数)所展示的。

为了进行公平比较，研究团队在数十亿级规模网络数据上训练SSL模型，与最先进的CLIP模型相同。

在评估方面，主要使用VQA作为框架，采用了Cambrian-1提出的评估套件，该套件评估了16个任务，涵盖4个不同的VQA类别：通用、知识、OCR和图表、以及Vision-Centric。

研究团队使用上述设置训练了一系列参数从1B到7B的视觉SSL模型Web-SSL，以便在相同设置下与CLIP进行直接且受控的比较。

通过实证研究，研究团队得出了以下几点见解：

视觉SSL在广泛的VQA任务中能够达到甚至超越语言监督方法进行视觉预训练，甚至在与语言相关的任务（如OCR和图表理解）上也是如此（图3）。

视觉SSL在模型容量（图3）和数据规模（图4）上的扩展性良好，表明SSL具有巨大的开发潜力。

视觉SSL在提升VQA性能的同时，仍能保持在分类和分割等传统视觉任务上的竞争力。

在包含更多文本的图像上进行训练尤其能有效提升OCR和图表任务的性能。探索数据构成是一个有前景的方向。

研究人员计划开源Web-SSL视觉模型，希望激励更广泛的社区在多模态时代充分释放视觉SSL的潜力。

视觉SSL 1.0到2.0

研究人员介绍了本文的实验设置。相比之前的研究，他们做了以下扩展：

(1) 把数据集规模扩展到十亿级别；

(2) 把模型参数规模扩展到超过1B；

(3) 除了用经典的视觉基准测试（比如ImageNet-1k和ADE20k）来评估模型外，还加入了开放式的VQA任务。

这些变化能在大规模上研究视觉SSL，观察到之前小规模实验看不到的规模效应趋势

扩展视觉SSL

研究团队探讨了视觉SSL模型在模型规模和数据规模上的扩展表现，这些模型只用MC-2B的图片数据来训练。

扩展模型规模：研究团队把模型规模从10亿参数增加到70亿参数，同时保持训练数据固定为20亿张MC-2B图片。他们用现成的训练代码和方法配方，不因模型大小不同而调整配方，以控制其他变量的影响。

扩展看到的数据量：研究团队把焦点转向固定模型规模下增加总数据量，分析训练时看到的图片数量从10亿增加到80亿时，性能如何变化。

扩展模型规模

扩展模型规模的目的有两个：一是找出在这种新数据模式下视觉SSL的性能上限，二是看看大模型会不会表现出一些独特的行为。

为此，研究团队用20亿张无标签的MC-2B图片（224×224分辨率）预训练了DINOv2 ViT模型，参数从10亿到70亿不等。没有用高分辨率适配，以便能和CLIP公平比较。

研究团队把这些模型称为Web-DINO。为了对比，他们还用同样数据训练了相同规模的CLIP模型。

他们用VQA评估每个模型，结果展示在图3中。

研究团队表示，据他们所知，这是首次仅用视觉自监督训练的视觉编码器，在VQA上达到与语言监督编码器相当的性能——甚至在传统上高度依赖文字的OCR & 图表类别上也是如此。

Web-DINO在平均VQA、OCR & 图表、以及Vision-Centric VQA上的表现，随着模型规模增加几乎呈对数线性提升，但在通用和知识类VQA的提升幅度较小。

相比之下，CLIP在所有VQA类别的表现到30亿参数后基本饱和。

这说明，小规模CLIP模型可能更擅长利用数据，但这种优势在大规模CLIP模型上基本消失。

Web-DINO随着模型规模增加持续提升，也表明视觉SSL能从更大的模型规模中获益，超过70亿参数的扩展是个有前景的方向。

在具体类别上，随着模型规模增加，DINO在Vision-Centric VQA上越来越超过CLIP，在OCR & 图表和平均VQA上也基本追平差距（图3）。

到了50亿参数及以上，DINO的平均VQA表现甚至超过CLIP，尽管它只用图片训练，没有语言监督。

这表明，仅用视觉训练的模型在CLIP分布的图片上也能发展出强大的视觉特征，媲美语言监督的视觉编码器。

Web-DINO模型在所有类别上都展现出新的「扩展行为」，尤其在OCR & 图表和Vision-Centric领域，CLIP模型的扩展收益有限，性能在中等规模时就饱和了

扩展所见数据量

研究团队研究了增加看到的数据量会怎样影响性能，在MC-2B的10亿到80亿张图片上训练Web-DINO ViT-7B模型。

如图4所示，通用和知识类VQA性能随着看到的数据量增加逐步提升，分别在40亿和20亿张时饱和。

Vision-Centric VQA 性能从10亿到20亿张时提升明显，超过20亿张后饱和。

相比之下，OCR & 图表是唯一随着数据量增加持续提升的类别。

这说明，模型看到更多数据后，学到的表征越来越适合文字相关任务，同时其他能力也没明显下降。

另外，和同规模的CLIP模型（ViT-7B）相比，Web-DINO在相同数据量下的平均VQA表现始终更强（图 4）。

尤其在看到80亿张样本后，Web-DINO在OCR & 图表VQA任务上追平了CLIP的表现差距。

这进一步证明，视觉SSL模型可能比语言监督模型有更好的扩展潜力。

随着训练数据从10亿增至80亿张图片，Web-DINO-7B在OCR和图表任务中持续提升，而通用和视觉任务在20亿张后收益递减。总体上，Web-DINO在平均性能上稳步提高，并始终优于同规模的CLIP模型

Web-SSL系列模型

研究团队在表3里展示了他们的视觉编码器跟经典视觉编码器对比所取得的最佳结果，涉及VQA和经典视觉任务。

Web-DINO在VQA和经典视觉任务上都能超越现成的MetaCLIP。

即便数据量比SigLIP和SigLIP2少5倍，也没语言监督，Web-DINO在VQA上的表现还是能跟它们打平手。

总体来看，Web-DINO在传统视觉基准测试中碾压了所有现成的语言监督CLIP模型。

虽然研究人员最好的Web-DINO模型有70亿参数，但结果表明，CLIP模型在中等规模的模型和数据量后就饱和了，而视觉SSL的性能随着模型和数据规模的增加会逐步提升。

Web-DINO在所有VQA类别中也超过了现成的视觉SSL方法，包括DINOv2，在传统视觉基准上也很有竞争力。

Web-DINO ViT-7B在没有语言监督的情况下，在VQA任务上与CLIP模型表现相当，在传统视觉任务上超过了它们

研究人员还额外对Web-DINO微调了2万步，分别测试了378和518分辨率，以便跟更高分辨率的现成SigLIP和DINO版本对比。

从224到378再到518分辨率，Web-DINO在平均VQA表现上稳步提升，尤其在OCR和图表任务上有明显进步。

经典视觉任务的表现随着分辨率提高略有提升。在384分辨率下，Web-DINO稍微落后于SigLIP；到了518分辨率，差距基本被抹平。

结果表明，Web-DINO可能还能从进一步的高分辨率适配中获益。

作者介绍

David Fan

David Fan是Meta FAIR的高级研究工程师，研究方向是自监督学习和视频表征。

曾在亚马逊Prime Video担任应用科学家，从事视频理解和多模态表征学习的研究，重点关注自监督方法。

此前，他在普林斯顿大学以优异成绩（Magna Cum Laude）获得计算机科学理学工程学士学位，导师是Jia Deng教授。

Shengbang Tong

Peter Tong（Shengbang Tong，童晟邦）是NYU Courant CS的一名博士生，导师是Yann LeCun教授和谢赛宁教授。研究兴趣是世界模型、无监督/自监督学习、生成模型和多模态模型。

此前，他在加州大学伯克利分校主修计算机科学、应用数学（荣誉）和统计学（荣誉）。并曾是伯克利人工智能实验室（BAIR）的研究员，导师是马毅教授和Jacob Steinhardt教授。

参考资料：

https://x.com/DavidJFan/status/1907448092204380630

https://arxiv.org/abs/2504.01017

本文来自微信公众号“新智元”，编辑：犀牛，36氪经授权发布。

本文分类：实时讯息
本文标签：模型视觉规模数据语言图表性能团队
浏览次数：0 次浏览
发布日期：2025-04-07 17:46:00
本文链接：https://www.jhwz.net/news/d8OX4weOgW.html

上一篇 > 美财长：美国民众不必忧虑养老金缩水美议员：他当然不担心因为他有钱
下一篇 > 这串“糖葫芦”关键时候能救命

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强04-07

（图表·海报）假日里的活力中国（4）04-07

全球首次！中国自主量子计算机“本源悟空”运行十亿级AI微调大模型04-07

截至2月末私募基金管理规模达19.93万亿元04-06

腾讯一产品宣布：将停止运营，补偿方案公布04-06

浙江台州：千年石窟做“针灸”04-06

下周挑战3400点？04-05

美股成交额前20：苹果跌超7%市值跌破3万亿美元特斯拉跌超10% 英伟达再度跌逾7%04-05