加州大学研究者推出全新生成式视觉预训练模型,效率显著提升
时间:2025-09-22 18:50
小编:星品数码网
在多模态大规模模型迅猛发展的背景下,视觉模块受到越来越多的关注,成为构建复杂人工智能系统的重要组成部分。以往,CLIP式的图文对比学习方法几乎成为视觉预训练的标准选项。许多知名的模型,包括OpenAI的CLIP和Google的SigLIP,均采用此类方法。但随着对比学习方法的逐渐趋同,研究者们开始探索其他可能性。

近期,来自加州大学圣克鲁兹分校、苹果公司以及加州大学伯克利的科研团队推出了业界全新的生成式视觉预训练模型——2(VLA-2),为多模态模型的发展提供了新的思路。该模型在保持优异性能的同时,显著提高了训练效率,并在生成框架下实现了可扩展的训练模式。这项研究为研究人员和开发者们提供了新的选择,挑战了对比学习的主导地位。
早在今年早些时候,该团队就在国际计算机视觉大会(ICCV)上发布了一个基于开放数据和开源代码训练的视觉编码器家族,致力于为研究界提供一个透明、可复现的基础架构。这个项目不仅包含了一系列视觉编码器,还首次提出了不同的参数设置以及多种patch大小和分辨率,成为学术界与产业界构建多模态系统时的重要替代方案。
在经过一系列实验后,研究人员发现其模型在多个多模态基准任务上不仅能够与OpenAI的CLIP和Google的SigLIP相抗衡,甚至在一些细粒度任务上表现得更加优异。但尽管如此, CLIP及其变体的训练过程相对复杂,造成了计算成本的显著上升。
为了降低训练过程中的复杂程度,生成式视觉预训练模型2采用了更加简化的设计理念。与传统的对比学习方法不同,2模型摒弃了两塔结构和额外的文本塔开销,专注于使用高质量合成描述作为唯一的监督信号。这一新的构架大大减少了计算负担,实现了更高的训练效率。
在设计上,2模型引入了“稀疏提示”技巧,即仅使用剩余的1/3 token生成完整描述。这样的设计不仅减少了文本解码器的计算负担,还促使模型在有限条件下依旧能够还原出完整的caption,从而提升了其抽象能力和表征能力。
研究表明,2模型在各种多模态基准实验中,尤其在TextVQA、ChartQA和OCR任务上的表现与CLIP系列模型相当,甚至在部分细粒度任务上更具优势。与主流对比学习模型相比,包括OpenAI的CLIP、LAION-CLIP和MetaCLIP,2模型在同等规模下的整体表现更强,特别是在与文本相关的任务中展现出了明显的优势。
在训练效率上,模型的训练时间显著缩短,显存占用也减少了,单卡的批量大小从2k扩大到8k。例如,在ViT-L/14模型上,训练时间由约83小时缩短到57小时,而在SoViT-400M上,由241小时缩减到121小时。这些显著的改进为2模型在生成式框架下的扩展奠定了良好的基础。
为何生成式预训练能如此有效?研究团队了三个关键因素:生成任务的推理方式与多模态大模型(如LLaVA)一致,这减少了预训练阶段与下游任务之间的目标错位;Recap-DataComp-1B v2中,caption生成同时结合了图像和原始文本,为预训练提供了更为可靠的监督信号;,仅保留部分视觉token进行生成,使得模型能够在信息不完整的情况下学习提取核心特征,进而提升其泛化能力和鲁棒性。
生成式视觉预训练模型2开创性地展示了在简约框架下同样能训练出强大视觉编码器的可能性,且在效率和可扩展性上提供了显著优势。这项研究不仅质疑了长期以来贸易对比学习方法的主导地位,更为未来多模态基础模型的演进提供了有益的启示。正如研究团队所言,“少即是多”的设计理念彰显了生成式视觉预训练的潜力。
自发布以来,研究团队一直在积极推动相关科技的开放与合作。通过将完整的训练代码和数据管线开源,期望加速学术界与产业界在生成式视觉预训练领域的探讨与研发,以推动这一领域的进一步发展,届时希望更多的研究者和从业者能够参与到这一前沿领域的探索与创新中来。

