网易首页 > 网易号 > 正文 申请入驻

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

0
分享至

论文第一作者为何浩然,香港科技大学二年级博士,他的研究方向包括强化学习、生成流模型(GFlowNets)以及具身智能,通讯作者为香港科技大学电子与计算机工程系、计算机科学与工程系助理教授潘玲。

测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?

为了回答这一问题,最近香港科技大学联合快手可灵团队推出Evolutionary Search (EvoSearch)方法,通过提高推理时的计算量来大幅提升模型的生成质量,支持图像和视频生成,支持目前最先进的 diffusion-based 和 flow-based 模型。EvoSearch 无需训练,无需梯度更新,即可在一系列任务上取得显著最优效果,并且表现出良好的 scaling up 能力、鲁棒性和泛化性。

随着测试时计算量提升,EvoSearch 表明 SD2.1 和 Flux.1-dev 也有潜力媲美甚至超过 GPT4o。对于视频生成,Wan 1.3B 也能超过 Wan 14B 和 Hunyuan 13B,展现了 test-time scaling 补充 training-time scaling 的潜力和研究空间

目前,该项目的论文和代码均已开源。

  • 论文标题:Scaling Image and Video Generation via Test-Time Evolutionary Search
  • 项目主页:https://tinnerhrhe.github.io/evosearch/
  • 代码:https://github.com/tinnerhrhe/EvoSearch-codes
  • 论文:https://arxiv.org/abs/2505.17618

我们来看 EvoSearch 与其他一些方法的效果对比:

1.Test-Time Scaling 的本质

这里团队将测试时扩展(Test-Time Scaling)和 RL post-training 分开来看,定义前者无需参数更新,后者需要计算资源进行后训练。Test-time scaling 和 RL post-training 本质都是为了激发预训练模型的能力,使其与人类偏好(奖励)对齐。给定一个预训练模型和奖励函数,目的是拟合如下的目标分布:

其中是归一化常数,需要遍历整个状态空间来计算。这是不可行的,因为 diffusion 和 flow 模型的状态空间都是高维的。这导致直接从目标分布采样不可行

2. 当前方法的局限性

诸如 RL 的后训练方法虽然也能从目标分布采样,但需要构造数据以及大量计算资源重新更新模型参数,导致代价很大并且很难 scale up。目前在视觉领域,最有效的 test-time scaling 方法包括 Best-of-N,它基于重要性采样(Importance Sampling)来拟合目标分布采样。Best-of-N 随机采样多个样本,并筛选出奖励最高的 N 个。在基于 diffusion 和 flow 模型的图像和视频生成任务上,Best-of-N 的样本通常是初始噪声。

最近的一些工作提出了更高级的采样方法,可以统一称为 Particle Sampling。这类方法将搜索空间拓展为整条去噪轨迹,在去噪过程中不断保留好的样本,并丢掉表现差的样本(类似 beam search)。这类方法虽然也能表现出 scaling up 性质,但缺少探索新的状态空间能力,并且会减少生成样本的多样性

团队做了一个小实验,当目标分布和预训练分布不一致(甚至可能是 o.o.d.),基于学习的 RL 方法会出现奖励过优化的现象(reward over-optimization)。诸如 best-of-N 和 particle sampling 的搜索方法也不能找到目标分布所有的模态。但团队的方法 EvoSearch 成功拟合了目标分布,并且取得了最高的奖励值

3. EvoSearch 解读

团队将图像和视频生成的 test-time scaling 问题重构成演化搜索问题。

EvoSearch 框架图

团队的方法受如下的洞见启发:他们发现在整个去噪轨迹中,高质量的样本往往会聚集在一起。因此,当搜索到高质量的父代,则可以在父代周围的空间进行探索从而有效找到更高质量的样本。从下图可以看到去噪轨迹中的样本在低维空间的分布与奖励空间具有强相关性。

基于此,团队设计了如下两种变异模式:

  • 初始噪声变异:EvoSearch 通过如下正交操作保持初始噪声仍然符合高斯分布

这些变异方式一方面加强了对于新的状态空间探索,另一方面又避免了偏离去噪轨迹的预训练分布。

我们定义了evolution schedulepopulation size schedule来进行演化搜索,这两种 schedule 的设置取决于可用的测试时计算量大小。

EvoSearch 算法伪代码如下:

4.EvoSearch 实验结果

1. 对于图片生成任务,在 Stable Diffusion 2.1 和 Flux.1-dev 上,EvoSearch 展示了最优的 scaling up 性质。即使测试时计算量扩大了 1e4 量级,仍能保持上升势头。对于视频生成任务,EvoSearch 在 VBench,VBench2.0 以及 VideoGen-Eval 中的 prompts 上也能达到最高的 reward 提升幅度。

2.EvoSearch 也能泛化到分布外(unseen)的评估指标,显示了最优的泛化性和鲁棒性。

3. EvoSearch 在人类评估上也达到最优胜率。这得益于他高的生成多样性,平衡了 exploration 和 exploitation。

4. 下面是更多的可视化结果:

更多细节请见原论文和项目网站。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
民进党态度变了,赖清德对大陆称谓发生大变化?释放的信号不简单

民进党态度变了,赖清德对大陆称谓发生大变化?释放的信号不简单

DS北风
2026-01-25 22:10:13
真的笑发财了!徐冬冬,不愧是被椰树椰汁的长公主!新包装太猛了

真的笑发财了!徐冬冬,不愧是被椰树椰汁的长公主!新包装太猛了

小娱乐悠悠
2026-01-24 08:13:02
马筱梅妈妈护送汪小菲两个孩子回北京,张兰在家准备礼物迎接少爷

马筱梅妈妈护送汪小菲两个孩子回北京,张兰在家准备礼物迎接少爷

社会故事说
2026-01-25 18:01:17
一言难尽!1月25日票房《寻秦记》破4亿,其他差强人意!

一言难尽!1月25日票房《寻秦记》破4亿,其他差强人意!

探索新高度
2026-01-26 02:02:20
高市早苗选择“政治豪赌”,在野政党痛批“没有大义”,日本迎来“最匆忙”大选

高市早苗选择“政治豪赌”,在野政党痛批“没有大义”,日本迎来“最匆忙”大选

环球网资讯
2026-01-24 06:51:18
李湘背后,赵薇、黄有龙、佘智江的跨境黑金链

李湘背后,赵薇、黄有龙、佘智江的跨境黑金链

难得君
2026-01-26 01:37:52
中国被下套了!土耳其免签坑惨游客,首批国人已被收割到破产

中国被下套了!土耳其免签坑惨游客,首批国人已被收割到破产

阿钊是个小小评论员
2026-01-24 00:51:33
1982年,58岁的演员仲星火决定再婚,被女儿赶出家门,4年搬8次家

1982年,58岁的演员仲星火决定再婚,被女儿赶出家门,4年搬8次家

磊子讲史
2026-01-21 17:22:32
龙珠:一口气看完角色原型,中国元素真的很多!

龙珠:一口气看完角色原型,中国元素真的很多!

动漫心世界
2026-01-19 14:13:39
16亿!“全球最难造”的杭州地标,正式启幕!

16亿!“全球最难造”的杭州地标,正式启幕!

GA环球建筑
2026-01-23 23:07:50
普通人进步最快的方式是什么?看网友的分享我醍醐灌顶,全是细糠

普通人进步最快的方式是什么?看网友的分享我醍醐灌顶,全是细糠

另子维爱读史
2026-01-25 20:16:05
牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

春露秋霜
2026-01-16 06:27:20
勇士队前锋乔纳森·库明加膝盖过度伸展,复出时间表尚不明确

勇士队前锋乔纳森·库明加膝盖过度伸展,复出时间表尚不明确

好火子
2026-01-26 04:48:05
伟大的3-0!德约解锁大满贯新成就,追平费德勒纪录,1幕引发争议

伟大的3-0!德约解锁大满贯新成就,追平费德勒纪录,1幕引发争议

刘姚尧的文字城堡
2026-01-25 08:04:47
阿森纳丢冠局!昔日核心遭球迷怒喷:球队之耻,立刻卖掉

阿森纳丢冠局!昔日核心遭球迷怒喷:球队之耻,立刻卖掉

澜归序
2026-01-26 03:45:51
学医后才知道,高血压最危险的信号,不是头晕眼花,而是这5症状

学医后才知道,高血压最危险的信号,不是头晕眼花,而是这5症状

健康科普365
2026-01-25 12:55:09
奥莱报:阿根廷后卫福伊特跟腱断裂将手术,他将无缘世界杯

奥莱报:阿根廷后卫福伊特跟腱断裂将手术,他将无缘世界杯

懂球帝
2026-01-25 23:05:53
殷秀梅:程志不是我的前夫,我的法国丈夫今年75岁

殷秀梅:程志不是我的前夫,我的法国丈夫今年75岁

顾史
2026-01-20 13:54:43
日媒:最新民调显示高市内阁支持率暴跌10%,解散众议院决定引不满

日媒:最新民调显示高市内阁支持率暴跌10%,解散众议院决定引不满

环球网资讯
2026-01-25 16:06:11
广东打工大龄未婚男子回到湖南农村,无人问津:没必要找老婆了

广东打工大龄未婚男子回到湖南农村,无人问津:没必要找老婆了

心轩专栏
2026-01-25 22:11:55
2026-01-26 07:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

英首相将时隔8年访华 斯塔默:前几任不去中国是失职

头条要闻

英首相将时隔8年访华 斯塔默:前几任不去中国是失职

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

房产
艺术
数码
时尚
本地

房产要闻

正式官宣!三亚又一所名校要来了!

艺术要闻

溥心畬的花鸟,淡雅清新

数码要闻

新一代 Siri 或将随 iOS 26.4 测试版亮相

看了鲁豫对章小蕙的采访,最大感触是这一点

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

无障碍浏览 进入关怀版