网易首页 > 网易号 > 正文 申请入驻

加州大学圣克鲁兹分校团队突破AI视觉处理界限

0
分享至


来自加州大学圣克鲁兹分校、约翰斯·霍普金斯大学、北卡罗来纳大学教堂山分校、加州大学伯克利分校和英伟达公司的研究团队,在2026年1月发表了一项突破性研究成果。这项研究以论文编号arXiv:2601.15369发表,为人工智能视觉处理领域带来了全新的解决方案。

在人工智能的世界里,一直存在着一个令人困扰的问题:就像人类的左脑和右脑各有专长一样,AI系统在"看懂"图片和"创造"图片这两件事上,似乎需要完全不同的"大脑"。当AI需要理解一张照片里有什么内容时,它需要一套专门的视觉理解系统。而当AI要根据描述画出一张新图片时,它又需要另一套完全不同的图像生成系统。这就好比一个人需要两个不同的大脑才能既欣赏艺术作品,又创作艺术作品。

这种分离不仅让AI系统变得复杂笨重,还阻碍了理解和创造能力之间的相互促进。研究团队意识到,如果能让AI像人类一样,用同一套视觉系统既能"看"又能"画",那将是一个巨大的突破。

于是,研究团队开发出了OpenVision 3这个革命性的系统。OpenVision 3就像是给AI装上了一双既能欣赏又能创作的"万能眼睛"。这个系统的核心理念基于"柏拉图表征假说",认为不同的数据形式实际上反映着同一个底层现实,就像不同角度拍摄的同一座山峰,本质上描述的是同一个物体。

一、统一视觉的巧妙设计:像调音师一样协调两种能力

OpenVision 3的设计就像一位高超的调音师,需要让两种完全不同的"乐器"和谐地演奏同一首乐曲。这个系统采用了一种巧妙的"三层蛋糕"结构。

最底层是一个名为VAE的编码器,它的作用就像一个高效的压缩专家。当一张图片输入系统时,VAE编码器首先将这张图片压缩成更紧凑的数字表示,就像将一幅巨大的油画压缩成一本精美的图册,保留所有重要信息的同时大大减少了存储空间。

中间层是一个视觉变换器ViT编码器,这是整个系统的核心大脑。它接收VAE编码器传来的压缩信息,然后进行深度理解和处理,就像一位经验丰富的艺术评论家,能够从技术细节中提炼出深层含义。这个ViT编码器产生的统一表征,既包含了图像的像素级细节信息,又蕴含着语义级的概念理解。

最上层则分为两个分支,就像从同一个主干分出的两根枝条。一根是重建分支,专门负责根据统一表征重新绘制出原始图像,确保系统没有丢失任何重要的视觉细节。另一根是理解分支,负责将图像内容与文字描述进行匹配和理解,培养系统的语义理解能力。

这种设计的精妙之处在于,两个分支共享同一套核心表征,就像两个不同专业的学生使用同一本教科书学习。理解分支通过对比学习和图像描述生成两种方式进行训练。对比学习就像让系统玩"找不同"的游戏,学会区分相似和不同的图像。而图像描述生成则像训练系统成为一个优秀的解说员,能够准确描述看到的内容。

二、训练过程的精心编排:循序渐进的学习之旅

训练OpenVision 3的过程就像培养一位全才艺术家,需要循序渐进,精心安排每个学习阶段。研究团队采用了一种"先易后难"的渐进式训练策略,这种方法在计算机视觉领域被证明既有效又经济。

训练分为两个主要阶段,就像学画画要先练基本功再挑战高难度作品一样。第一阶段使用128×128像素的低分辨率图像进行预训练,这个阶段占据了绝大部分训练时间。低分辨率训练就像让学生先用粗笔练字,掌握基本笔画和结构,而不被细节所困扰。这个阶段持续1000到2000个周期,具体取决于模型的大小。

第二阶段则提升到224×224或256×256像素的高分辨率进行精调,就像学生掌握基本技巧后开始练习精细的工笔画。这个阶段只需要200个周期,主要是在已经学会的基础上增加细节处理能力。两个阶段的训练时间比例大约是10:1,这样的安排既保证了学习效果,又大大降低了计算成本。

在训练数据方面,研究团队使用了经过LLaVA-Llama-3重新标注的DataComp数据集。这就像为学生准备了经过精心挑选和整理的优质教材,确保学习内容的质量和准确性。

训练过程中的损失函数设计也很有讲究。重建分支的损失函数包含三个部分:图像重建损失、VAE潜在空间损失和感知损失。图像重建损失确保生成的图像在像素级别与原图相似,VAE潜在空间损失保证在压缩表征空间的一致性,而感知损失则确保生成图像在人类视觉感知上的质量。

理解分支的训练则结合了对比学习和图像描述生成两种损失。研究团队特意将理解损失的权重设置为重建损失的两倍,这样的权重分配确保了系统在保持生成质量的同时,重点强化理解能力。

三、令人惊喜的协同效应:意外发现的相互促进

在研究过程中,团队发现了一个令人意外且极其有趣的现象:理解能力和生成能力之间存在着强烈的相互促进作用,就像两个好朋友互相帮助学习,结果都取得了更好的成绩。

为了验证这种协同效应,研究团队进行了一系列精心设计的对照实验。他们分别训练了只有理解分支的模型和只有重建分支的模型,然后观察这种单独训练会产生什么结果。

当他们移除重建分支,只用语义理解目标训练模型时,发现了一个惊人的现象:即使没有明确的重建训练目标,模型的图像重建能力仍然显著提升。这就像一个学生专心学习文学鉴赏,结果发现自己的绘画技巧也不知不觉地进步了。具体表现为像素级重建损失和潜在空间重建损失都大幅下降,说明语义理解训练本身就在帮助模型学习图像的内在结构。

相反的实验同样令人惊讶。当研究团队移除理解分支,只用重建目标训练模型时,发现重建训练也在默默地提升模型的语义理解能力。虽然对比学习损失几乎没有变化(这可以理解,因为没有专门的对比学习训练),但图像描述生成的能力却有了明显改善。这说明重建过程中学到的细致图像表征,天然地包含了有用的语义信息。

更有趣的是,当两个分支同时训练时,重建分支的性能比单独训练时更好。这表明语义监督信号确实在帮助模型学习更好的图像表征。这种现象可以用一个生动的比喻来理解:就像学习演奏乐器时,既练习技巧又理解音乐理论,会比单纯练习指法取得更好的效果。

这种协同效应的发现为统一视觉建模提供了重要的理论支撑,证明了语义理解和像素重建这两个看似不同的任务,实际上在深层次上是相互关联、相互促进的。

四、全方位性能验证:三个维度的卓越表现

为了全面验证OpenVision 3的能力,研究团队设计了三个维度的评估:重建质量、生成能力和理解性能。这就像对一位全能运动员进行体能、技巧和智力的三项全能测试。

在重建质量方面,OpenVision 3表现出了压倒性的优势。研究团队使用了多个指标来评估重建质量,包括峰值信噪比PSNR、结构相似性指数SSIM、学习感知图像块相似性LPIPS和重建弗雷歇特初始距离rFID。这些指标就像评估一幅临摹作品的不同标准:色彩还原度、结构准确性、视觉质量和整体逼真度。

在ImageNet数据集上,OpenVision 3达到了30.33 dB的PSNR值,远远超过了其他统一标记器。相比之下,UniTok只能达到25.34 dB,Vila-U更是只有22.24 dB。在感知质量方面,OpenVision 3的LPIPS得分为0.061,而最接近的竞争对手UniTok的得分是0.132,几乎是两倍的差距。这种差距就像专业画家和业余爱好者临摹同一幅名画的区别。

更令人印象深刻的是,OpenVision 3不仅超越了其他统一标记器,甚至能与专门的生成导向标记器相媲美。在与FLUX-VAE这样的专业生成标记器对比时,OpenVision 3仍然保持了竞争力,这证明了其设计的有效性。

在生成能力测试中,研究团队使用了RAE(Rectified Auto-Encoder)框架来训练生成模型,然后评估不同标记器的生成质量。评估指标包括生成弗雷歇特初始距离gFID、初始得分IS、精确度和召回率。这些指标分别衡量生成图像的质量、多样性、准确性和覆盖度。

OpenVision 3在生成任务上的表现同样出色,gFID得分为1.89,显著优于使用CLIP标记器的2.54分。这个改进幅度相当可观,表明统一表征确实能够提供更好的生成基础。与传统的扩散模型相比,OpenVision 3也展现出了竞争优势,甚至超越了一些使用更先进生成器的组合。

在理解性能方面,研究团队将OpenVision 3集成到LLaVA-1.5框架中,在多个多模态基准测试上进行评估。这些测试包括MME、ScienceQA、SeedBench、GQA和POPE等,涵盖了不同类型的视觉理解任务。

结果显示,OpenVision 3在理解任务上与OpenAI的CLIP编码器相当,甚至在某些任务上表现更优。例如,在SeedBench上,OpenVision 3-L达到了66.0分,超过了CLIP-L/14的65.4分。在POPE任务上,OpenVision 3-L获得了85.3分,同样超过了CLIP的84.7分。这证明了统一设计并没有牺牲理解能力,反而在某些方面有所提升。

五、深入分析:理解与生成的奇妙化学反应

研究团队对OpenVision 3表现出的协同效应进行了深入分析,揭示了理解和生成能力相互促进的内在机制。这种分析就像解剖一朵美丽的花朵,探究其绚烂色彩背后的生物学原理。

通过精心设计的消融实验,研究团队分别移除了重建损失和理解损失,观察模型性能的变化。当只保留语义理解训练时,一个令人惊讶的现象出现了:即使没有明确要求模型学习图像重建,重建相关的损失仍然显著下降。这说明语义理解过程本身就在帮助模型学习图像的内在结构和表征。

这种现象可以这样理解:当模型学会理解图像内容时,它必须深入分析图像的各种视觉元素,如形状、颜色、纹理和空间关系。这个深入分析的过程自然而然地让模型掌握了图像的内在规律,从而提升了重建能力。这就像一位艺术史学家在研究名画时,不仅理解了画作的主题和意义,也不知不觉地学会了绘画技巧。

相反的实验也揭示了有趣的现象。当只进行重建训练时,模型的图像描述生成能力有了明显改善,尽管对比学习能力基本没有变化。这表明重建过程学到的细致表征包含了丰富的语义信息,这些信息对于生成型的语义任务(如图像描述)是有益的。

更深层的分析显示,当两种训练目标同时存在时,它们形成了一种相互强化的正反馈循环。语义理解帮助模型关注图像中最重要和最有意义的特征,而重建训练则确保这些特征的细节不会丢失。这种组合让模型既能抓住大局,又能兼顾细节,就像一位既有远见又注重细节的建筑师。

研究团队还发现,这种协同效应并非偶然,而是有深层的理论基础。近期的研究表明,语义信息指导的标记化可以促进低层重建学习,甚至可以直接替代纯粹的重建导向标记器。OpenVision 3的成功为这一理论提供了强有力的实证支持。

六、技术创新的精妙之处:简单设计背后的深刻洞察

OpenVision 3的技术创新体现在其看似简单却极其有效的设计理念。与许多复杂的多模态系统不同,OpenVision 3采用了"大道至简"的设计哲学,通过巧妙的架构设计实现了复杂的功能。

系统的核心创新在于其统一标记化方法。传统的多模态系统通常需要为不同任务设计不同的编码器,就像需要不同的钥匙来开不同的锁。而OpenVision 3则设计了一把"万能钥匙",能够同时适应理解和生成两种完全不同的任务需求。

这种统一设计的技术难点在于如何平衡两种任务的需求。理解任务需要高层语义信息,而生成任务需要低层像素细节。OpenVision 3通过在VAE潜在空间中进行训练巧妙地解决了这个问题。VAE潜在空间就像一个信息密度适中的"中间地带",既保留了足够的细节信息,又具有合适的抽象层次。

另一个重要创新是噪声注入机制。在重建分支中,系统会向统一表征添加随机噪声,这种做法类似于给学生在考试中增加一些干扰,迫使他们更深入地理解知识而不是死记硬背。这种噪声注入提高了模型的泛化能力,使其在生成任务中表现更加稳定。

训练策略的设计也体现了研究团队的深刻洞察。通过将理解损失的权重设置为重建损失的两倍,系统在保证生成质量的同时优先发展理解能力。这种权重设置基于这样的认识:理解能力是更高层次的认知能力,应该得到更多关注。

研究团队还巧妙地利用了现有的高质量预训练模型。他们使用冻结的FLUX.1-dev VAE作为基础编码器,这样既节省了训练成本,又确保了系统的基础质量。这种做法就像站在巨人的肩膀上,能够看得更远。

七、实际应用的广阔前景:改变未来的可能性

OpenVision 3的成功不仅是学术研究的突破,更预示着人工智能应用的新可能性。这种统一视觉模型有望在多个领域产生深远影响,就像发明了新的交通工具,能够到达以前无法到达的地方。

在内容创作领域,OpenVision 3可能会彻底改变创作者的工作方式。设计师可以通过自然语言描述直接生成图像,同时系统还能理解和分析这些图像的内容。这就像拥有了一位既会画画又懂设计的智能助手,能够在创作过程中提供即时反馈和建议。

教育领域也将从这项技术中受益。教师可以使用这种系统既生成教学图像,又自动分析学生作品。系统既能根据教学需求创造合适的视觉材料,又能理解和评估学生的视觉作品,为个性化教学提供支持。

在医疗影像领域,统一视觉模型可能带来新的突破。系统既能理解医疗图像中的病理特征,又能生成用于教学或模拟的医疗图像。这种双重能力使得系统既能辅助诊断,又能用于医学教育和研究。

自动驾驶和机器人领域也将受益于这种统一视觉能力。机器人既需要理解环境中的视觉信息,又需要在某些情况下生成或预测视觉场景。统一的视觉表征可以让机器人更好地理解和预测环境变化。

虽然当前的OpenVision 3还主要在研究阶段,但研究团队承诺将完全开源他们的训练代码、数据和模型检查点。这种开放态度将加速技术的普及和改进,让更多研究者和开发者能够基于这项工作开发新的应用。

说到底,OpenVision 3代表了人工智能发展的一个重要里程碑。它证明了理解和创造这两种看似不同的能力,实际上可以在同一个系统中和谐共存并相互促进。这不仅为技术发展指明了新方向,也为我们理解人类视觉认知提供了新的启发。

未来,随着这类统一视觉模型的不断完善,我们有理由期待更加智能、更加全面的人工智能系统。这些系统将不再是单一功能的工具,而是真正具有综合视觉智能的伙伴,能够在理解我们世界的同时,也帮助我们创造新的视觉内容。这项研究的发表标志着我们向这个目标又迈进了重要一步。

Q&A

Q1:OpenVision 3与传统AI视觉系统有什么本质区别?

A:传统AI视觉系统就像需要两个专门的"大脑",一个负责看懂图片内容,另一个负责画图。而OpenVision 3实现了用同一套视觉系统既能理解图像又能生成图像,就像人类用同一双眼睛既能欣赏艺术作品又能指导创作。这种统一设计不仅简化了系统结构,还让理解和生成能力相互促进,整体性能更优。

Q2:OpenVision 3的理解和生成能力相互促进是怎么实现的?

A:研究团队发现了一个有趣现象:当AI学习理解图像语义时,会自然地提升重建图像的能力;而学习重建图像细节时,也会改善语义理解能力。这就像学习音乐理论会提升演奏技巧,而练习演奏也会加深对音乐的理解。两种训练目标共享同一套核心表征,形成了相互强化的正反馈循环。

Q3:OpenVision 3在实际应用中能达到什么水平?

A:OpenVision 3在三个关键指标上都表现出色:图像重建质量超越现有统一标记器,生成图像的质量明显优于传统方法,理解能力与OpenAI的CLIP相当甚至更优。具体来说,在ImageNet数据集上,其生成质量比CLIP提升了25%以上,同时在多个理解任务中保持竞争优势,证明了统一设计的有效性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日媒:因中国等国的盗版,日本去年损失近4700亿元

日媒:因中国等国的盗版,日本去年损失近4700亿元

随波荡漾的漂流瓶
2026-01-26 15:15:28
1949年中英冲突发生后,丘吉尔欲派遣航母以武力报复中国,毛泽东对此质问:你报复什么?

1949年中英冲突发生后,丘吉尔欲派遣航母以武力报复中国,毛泽东对此质问:你报复什么?

史海孤雁
2026-01-05 13:43:12
曼联糙哥突变贝尔,卡里克解释原因!库尼亚被挤成超级替补却信服

曼联糙哥突变贝尔,卡里克解释原因!库尼亚被挤成超级替补却信服

罗米的曼联博客
2026-01-26 11:19:55
首映仅150万,《舒克贝塔》票房扑街,郑渊洁父子亏到怀疑人生

首映仅150万,《舒克贝塔》票房扑街,郑渊洁父子亏到怀疑人生

电影票房预告片
2026-01-25 00:00:56
魔兽世界:时光服再次调整,熔火之心迎来削弱,玩家该如何选择?

魔兽世界:时光服再次调整,熔火之心迎来削弱,玩家该如何选择?

游戏农工
2026-01-27 00:22:06
曾和奚梦瑶传绯闻,36岁时尚圈第一神颜:没结婚,但是个好爸爸

曾和奚梦瑶传绯闻,36岁时尚圈第一神颜:没结婚,但是个好爸爸

听风听你
2026-01-24 23:29:04
一位北京金融女博士直言:如果手里有二十万,建议死啃美人肩战法

一位北京金融女博士直言:如果手里有二十万,建议死啃美人肩战法

股经纵横谈
2025-11-28 19:41:15
新干线上外国乘客的行李箱掉下砸到日本女性头部,语言不通无法和解造成列车晚点

新干线上外国乘客的行李箱掉下砸到日本女性头部,语言不通无法和解造成列车晚点

日本物语
2026-01-25 20:32:37
当下,已经没有人愿意好好上班了!

当下,已经没有人愿意好好上班了!

黯泉
2026-01-21 22:52:39
6年不换机!39%的iPhone 11用户还在硬扛:是情怀还是无奈?

6年不换机!39%的iPhone 11用户还在硬扛:是情怀还是无奈?

小柱解说游戏
2026-01-24 08:38:13
亚洲杯最终名额确定,林昀儒等人退赛,韩国锦标赛正在进行

亚洲杯最终名额确定,林昀儒等人退赛,韩国锦标赛正在进行

子水体娱
2026-01-25 19:39:16
中年觉醒:经营好自己的40-50岁

中年觉醒:经营好自己的40-50岁

诗词中国
2026-01-14 20:47:21
北京下最后通牒?新加坡连夜撕毁半世纪盟约,赖清德谋独彻底崩盘

北京下最后通牒?新加坡连夜撕毁半世纪盟约,赖清德谋独彻底崩盘

听风行天涯
2026-01-24 18:01:24
北美票房第一,中国票房第五,可惜了一部好莱坞力作!

北美票房第一,中国票房第五,可惜了一部好莱坞力作!

热荐电影
2026-01-26 23:24:29
迪亚洛连续3战吃T领跑技犯榜单:累计7技犯再吃1T将追加停赛

迪亚洛连续3战吃T领跑技犯榜单:累计7技犯再吃1T将追加停赛

狼叔评论
2026-01-26 22:42:35
牢a“三通一达”的梗,把女留子的天捅塌了,相亲和工作遭冷遇

牢a“三通一达”的梗,把女留子的天捅塌了,相亲和工作遭冷遇

静若梨花
2026-01-25 13:33:12
黄景瑜官宣上太空刚过一天,航天公司被扒底朝天,离谱事接连发生

黄景瑜官宣上太空刚过一天,航天公司被扒底朝天,离谱事接连发生

一娱三分地
2026-01-24 19:27:30
在广东发现人家的高级晾衣法,做法太高明了,后悔没早看到!

在广东发现人家的高级晾衣法,做法太高明了,后悔没早看到!

绘本家居
2026-01-26 08:27:50
巩俐21岁时写的字,颠覆了我的想象!

巩俐21岁时写的字,颠覆了我的想象!

石场阿鑫
2026-01-16 13:41:02
原来你是这样的谭松韵!被曝离婚后回应:的确是结了,但现在又离了

原来你是这样的谭松韵!被曝离婚后回应:的确是结了,但现在又离了

八卦王者
2026-01-26 15:27:19
2026-01-27 03:11:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7013文章数 548关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

亲子
本地
旅游
家居
公开课

亲子要闻

“生孩子老了就这下场”,母亲用按摩机被女儿网暴,网友看不下去

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

旅游要闻

本市将打造中国入境旅游首选地

家居要闻

流韵雅居,让复杂变纯粹

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版