OpenVision 2发布：极简生成式视觉预训练摒弃对比学习，性能效率全面超越CLIP

2025-09-16

7 0

在AI视觉领域，CLIP（Contrastive Language-Image Pretraining）自2021年问世以来，就像一把“万能钥匙”——通过图像和文本的对比学习，让模型能理解“猫”的图片和“一只坐着的橘猫”这句话的关联。但这把钥匙有个明显的“缺点”：太费钱了。它需要同时训练图像和文本两个编码器（双塔结构），计算资源消耗巨大，普通人根本玩不起。

直到最近，加州大学圣克鲁兹分校、苹果和伯克利联合团队甩出了一个“王炸”——OpenVision 2。这个新模型做了一件看似“反常识”的事：把CLIP那套复杂的对比学习框架全扔了，只保留“看图写描述”这一个简单任务，结果训练效率直接翻倍，性能还能和CLIP打个平手。这到底是怎么做到的？今天我们就来拆解这场视觉预训练的“减法革命”。

1. OpenVision 2：从“双塔”到“单车道”的极简主义

要理解OpenVision 2的突破，得先说说它的“前辈们”。过去几年，CLIP开创的“对比学习”范式几乎垄断了视觉-语言预训练领域——模型左边是图像编码器，右边是文本编码器，通过海量图文对“互相对比”来学习关联。但这套模式有个绕不开的问题：复杂且低效。

比如OpenVision的第一代模型（2024年发布），虽然也是开源替代方案，但依然沿用了“对比学习+生成任务”的双重目标，需要同时训练图像塔和文本塔，计算量翻倍，扩展性受限。而CLIP更不用说，双塔结构加上对比损失函数，训练时的显存占用和时间成本让中小团队望而却步。

OpenVision 2团队干脆来了个“大刀阔斧的减法”：直接砍掉文本编码器和对比学习目标，只保留“图像→描述”的生成任务。模型结构简化成“图像编码器+文本解码器”的单车道架构——输入一张图，解码器直接生成描述文字，全程不依赖文本编码器，也不需要双塔结构的额外开销。

Tips：什么是“双塔结构”？
传统CLIP类模型的“双塔”指图像编码器（处理图像）和文本编码器（处理文字）两条并行的网络，训练时需要让两者输出的特征“对齐”（比如计算相似度）。这种结构虽然有效，但需要同时维护两个大型编码器，计算和显存成本很高。

这种“极简设计”听起来大胆，但结果却出乎意料：在主流多模态任务（如图像问答TextVQA、图表理解ChartQA、OCR文字识别等）上，OpenVision 2的性能和前代持平，部分细粒度任务甚至更强，而训练效率直接提升1.5-2倍，显存占用砍半。

2. 核心技术：50%掩码+生成任务，逼出模型“抽象能力”

极简框架能成功，关键靠两个“神操作”：生成式单任务驱动和视觉Token随机掩码。

2.1 扔掉对比学习，生成任务够不够？

过去大家觉得，对比学习是视觉-语言模型“理解关联”的核心。但OpenVision 2团队发现：高质量的图像描述本身就是最好的监督信号。比如给一张“猫追球”的图，让模型直接生成“一只橘猫在客厅里追逐红色皮球”，这个过程中，模型需要理解“橘猫”“客厅”“追逐”这些视觉细节和语义概念，自然能学到图像的深层特征。

论文里的关键发现是：完全移除对比学习和文本编码器后，仅用“图像→描述”的生成任务，模型依然能学到和CLIP媲美的视觉表征。这说明，生成任务本身就足够让模型“看懂”图像，甚至可能因为目标更聚焦，学习效率更高。

2.2 50%视觉Token被“屏蔽”：少即是多的智慧

另一个“神来之笔”是视觉Token随机掩码。训练时，模型会随机丢弃约50%的视觉Token（即图像经过编码器后输出的特征片段），只让解码器用剩下的一半Token生成完整描述。

比如一张图被编码成100个Token，训练时随机扔掉50个，解码器必须基于残缺的信息“脑补”出完整描述。这个操作有两个好处：

减轻解码器负担：少一半Token输入，解码器计算量直接下降，训练速度加快；
逼模型学“抽象特征”：如果只看局部Token就能生成描述，模型必须学会忽略无关细节，抓住“猫”“球”“动作”这些核心抽象特征，而不是死记硬背像素级信息，泛化能力自然更强。

3. 性能与效率：用数据说话，到底强在哪？

OpenVision 2的“性价比”到底有多高？我们直接看数据对比（同等硬件环境下）：

模型	训练时间（小时）	显存占用	单卡批大小	参数规模
ViT-L/14 (CLIP)	83	高	2k	约4亿
ViT-L/14 (OpenVision 2)	57	低	8k	约4亿
SoViT-400M (CLIP)	241	高	2k	4亿
SoViT-400M (OpenVision 2)	121	低	8k	4亿
OpenVision 2（最大扩展）	约121	低	8k	10亿

从表格能清晰看到：

训练时间减半：比如4亿参数的ViT-L/14模型，CLIP需要83小时，OpenVision 2只要57小时；
显存占用更低：单卡批大小从2k提升到8k，意味着同样的GPU能一次处理更多数据，效率大幅提升；
参数可扩展至10亿：最大模型仅用121小时就完成训练，而同等规模的CLIP类模型通常需要翻倍时间。

更重要的是性能：在OCR文字识别、图表理解等细粒度任务上，OpenVision 2甚至超过了CLIP、MetaCLIP等主流对比学习模型。论文解释，这可能是因为生成任务更关注“细节描述”，而对比学习更侧重“整体特征对齐”，因此在需要精确识别文字、图表元素的场景下，生成式模型更有优势。

4. 高质量数据：Recap-DataComp-1B v2，监督信号的“质”比“量”更重要

极简框架能跑通，背后离不开高质量的训练数据——Recap-DataComp-1B v2数据集。

传统图文数据（如网络爬取的图片+标题）往往存在描述简单、噪声大的问题（比如一张复杂场景的图，标题可能只有“风景”两个字）。而Recap-DataComp-1B v2是通过“Recap”方法生成的合成描述：用GPT-4等大语言模型，为图像生成详细、准确的文本描述，不仅包含物体、场景，还包括动作、属性甚至背景信息。

比如一张厨房图，普通描述可能是“厨房”，而Recap生成的描述是“白色厨房台面上放着不锈钢水壶、木质砧板和一把红色刀柄的刀，窗外阳光照进来，台面上有少许面粉”。这种“高质量监督信号”让模型在生成任务中能学到更丰富的视觉语义特征，也是OpenVision 2仅靠生成任务就能成功的核心前提。

5. 开源生态与社区反响：从实验室到产业界的“降门槛”

OpenVision 2团队不仅发布了论文，还把代码、模型权重、训练脚本全部开源：

GitHub代码库（UCSC-VLAA/OpenVision）：提供完整PyTorch实现，支持复现和二次开发；
Hugging Face模型库：直接提供预训练好的模型（如ViT-B/16、ViT-L/14等不同尺寸），开发者可以一键下载调用；
项目主页：详细展示实验结果、可视化案例和使用教程。

这种“全面开放”的态度让社区迅速沸腾。在GitHub上，项目发布后很快收获数千星标，开发者讨论的焦点集中在：

对CLIP范式的挑战：“原来不用对比学习也行？这可能改变视觉预训练的思路”；
效率提升的实用性：“训练时间减半，小实验室也能玩得起大模型了”；
掩码生成的巧妙：“50%掩码这个设计太绝了，简单但效果拔群”。

科技媒体如“机器之心”也评价，OpenVision 2的意义不仅是性能提升，更在于“重新定义了视觉-语言预训练的性价比”——用更简单的框架、更低的成本，达到甚至超越复杂模型的效果。

6. OpenVision 2的意义

OpenVision 2的出现，给视觉-语言模型领域提了一个醒：复杂不一定等于好，简单可能更有效。它证明了生成式任务的潜力，也为降低大模型训练门槛提供了新思路。

未来，我们可能会看到更多“极简设计”的视觉模型：去掉冗余模块，聚焦核心任务，用高质量数据和巧妙的训练策略“以小博大”。对于研究者和企业来说，这意味着更低的资源成本；对于AI应用来说，更高效的模型能更快落地到边缘设备、手机端等资源受限场景。

当然，OpenVision 2也有需要验证的地方：比如在更大规模数据（如10亿级图像）上的表现，或者与最新的多模态大模型（如GPT-4V）的对比。但至少现在，它已经用“极简主义”撕开了视觉预训练的新口子，让我们看到：AI模型的“进化”，有时不是做加法，而是做减法。

参考链接

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系aipmgo@163.com删除。

Chegg因AI冲击裁员45% 原CEO Rosensweig回归领导

教育科技行业正遭AI剧烈冲击，美国在线学习平台Chegg近期裁员45%（388人）并换帅，原CEO Dan Rosensweig回归推动转型。数据显示，AI已致传统作业辅导市场三年缩水32%，Chegg核心订阅用户锐减23%。此次调整被视为行业洗牌信号，企业需将AI融入学习过程以突围。

Lyra

3 0

MiniMax发布开源大模型MiniMax-M2：Agentic工具调用能力比肩GPT-5/Claude，登顶开源LLM智能榜首

2025年10月MiniMax发布开源大语言模型MiniMax-M2，MIT许可证实现企业低门槛部署，兼容主流API与框架。其Agentic工具调用能力接近GPT-5、Claude，多项评测突破开源瓶颈，采用稀疏MoE架构平衡性能与效率，综合智能居开源首位，助力企业低成本构建高性价比智能自动化系统。

Lyra

5 0

Comet浏览器AI漏洞引爆行业危机：AI浏览器安全软肋与行业信任拷问

2025年10月，Perplexity Comet浏览器曝严重AI漏洞，恶意网页可劫持其AI助手窃取数据、操控账户，致用户流失25%。事件暴露AI浏览器结构性隐患：为提升智能，其需突破传统浏览器沙箱隔离、同源策略等安全机制，自动执行功能成漏洞温床，行业同类产品存类似风险。用户建议限制敏感操作、开启操作透明度防范。

Lyra

3 0

苹果休斯顿工厂提前出货AI服务器支撑Apple Intelligence及私有云核心算力

苹果AI赛道布局提速，其美国休斯顿新工厂已提前启动AI服务器出货，较原计划大幅提前。依托美国CHIPS法案及德州补贴，叠加与台积电合作实现供应链周期压缩，该工厂为Apple Intelligence平台及私有云计算注入核心算力。其端云协同架构通过定向传输技术实现数据隐私与算力平衡，或将为行业树立算力、隐私、安全三位一体新标准。

Lyra

6 0

OpenVision 2发布：极简生成式视觉预训练摒弃对比学习，性能效率全面超越CLIP

1. OpenVision 2：从“双塔”到“单车道”的极简主义

2. 核心技术：50%掩码+生成任务，逼出模型“抽象能力”

2.1 扔掉对比学习，生成任务够不够？

2.2 50%视觉Token被“屏蔽”：少即是多的智慧

3. 性能与效率：用数据说话，到底强在哪？

4. 高质量数据：Recap-DataComp-1B v2，监督信号的“质”比“量”更重要

5. 开源生态与社区反响：从实验室到产业界的“降门槛”

6. OpenVision 2的意义

参考链接

推荐阅读

Chegg因AI冲击裁员45% 原CEO Rosensweig回归领导

MiniMax发布开源大模型MiniMax-M2：Agentic工具调用能力比肩GPT-5/Claude，登顶开源LLM智能榜首

Comet浏览器AI漏洞引爆行业危机：AI浏览器安全软肋与行业信任拷问

苹果休斯顿工厂提前出货AI服务器 支撑Apple Intelligence及私有云核心算力

评论

苹果休斯顿工厂提前出货AI服务器支撑Apple Intelligence及私有云核心算力