网易首页 > 网易号 > 正文 申请入驻

Nature重磅:AI进入「光学」时代,首次画出彩色梵高

0
分享至


快速、节能地实现生成式 AI 的可扩展推理,是当前 AI 行业面临的最紧迫挑战之一。

今天,AI 行业发展更进一步,将“光”引入 AIGC 领域,完全基于系统硬件物理定律,首次实现了具备特定特征的全新(未见过的)图像生成

来自加州大学洛杉矶分校的研究团队成功实现了手写数字、时尚产品、蝴蝶、人脸及艺术品(如梵高风格)的单色与多色图像光学生成,且整体性能媲美基于数字神经网络的生成式模型

相关研究论文以“

Optical generative models
”为题,已发表在权威科学期刊
Nature
上。


论文链接:

https://www.nature.com/articles/s41586-025-09446-5

研究团队表示,这一光学生成式模型有望为节能且可扩展的推理任务开辟新路径,进一步挖掘光学与光子学在 AIGC 领域的潜力。同时,这种光学系统与机器学习方法的融合,有望应用于增强现实(AR)和虚拟现实(VR)领域。

在一篇同期发表的新闻与观点文章中,法国国家科学研究中心 FEMTO‑ST 研究所研究员 Daniel Brunner 认为,这项成果具有重要的技术与科学意义,是迈向利用非常规物理系统构建生成式计算模型的重要一步


文章链接:

https://www.nature.com/articles/d41586-025-02523-9

在 Brunner 看来,由于光子处理信息具有天然优势,如可以同时处理整个三维体积中的数据,“光学生成式模型也有望具备生成三维图像的潜力”。

Brunner 表示,要使未来的光学生成式模型更强、更灵活,可能还需要构建“同时采用光学编码器与光学解码器的模型”,并尝试构建多层解码系统,运用更复杂的光学现象。

然而,正如 Brunner 所言,这项研究的“未来价值取决于能否实现完全落地”,但任重而道远。

“理想情况下需借助可扩展的集成电路技术,同时避免当前数字硬件编码所需耗时耗能的数据预处理环节。即便在电子学、光学物理计算及两者融合领域历经数十年研究后,这仍将是一项极具挑战性的任务。”

光学生成式模型:让光“动手画画”

近年来,生成式数字模型已经发展到能够合成多样化的高质量图像、类人的自然语言、全新的音乐作品,甚至设计出全新的蛋白质。这些新兴的生成式 AI 技术在包括大语言模型(LLM)、具身智能以及 AIGC 等应用中发挥着重要作用。

然而,随着生成式模型的成功应用,其规模也迅速扩大,对电力、内存资源的消耗日益加重,同时推理时间也显著增长。其可扩展性和碳足迹,正成为日益关注的问题。

尽管已有多种方法试图降低模型规模与能耗,并提升推理速度,但依然迫切需要新的路径,来构建高能效、可扩展的生成式 AI 模型。

在此背景下,研究团队提出了一种受扩散模型启发的光学生成式模型,其编码器为传统数字实现,而解码器则由光学元件构成。

在这一架构中,一个浅层、快速的数字编码器首先将随机噪声映射为相位图案,这些图案作为目标数据分布的光学生成种子。随后,一个联合训练的、基于自由空间传播的可重构解码器对这些种子进行全光学处理,从而生成前所未见的图像,并遵循预期的数据分布。

值得注意的是,除了浅层编码器阶段用于产生照明功率与随机种子,该光学生成式模型在图像生成的过程中几乎不消耗任何计算资源


图|光学生成式模型示意图。

研究团队提出了两种图像光学生成路径:快照式和迭代式


在快照光学生成式模型中,每幅图像或输出数据的快照光学生成,可在需要时通过随机访问这些预先计算的光学生成种子之一来实现。所需图像合成完全依赖光在自由空间中的传播过程,并由一个优化后的、固定状态的衍射解码器完成。


图|快照光学生成式模型

迭代光学生成式模型则在每一个时间步,前一步生成的带噪声图像被输入光学系统。经过波的传播后,多色信息被记录下来,用于提供给下一次光学迭代,同时加入一些预设的噪声。在最后一个时间步,图像传感器阵列记录输出强度以完成最终图像生成。当模型完成训练后,在盲推理阶段,迭代光学生成式模型会逐步从高斯噪声分布重建目标数据分布。


图|迭代光学生成式模型

此外,研究团队还展示了如何通过在空间光调制器(SLM)上直接实现从强度到相位的转换,并结合在图像传感器平面上的光电转换。他们能够利用迭代光学生成式模型实现复杂的域映射——尽管其性能和图像多样性相比使用数字编码器的迭代光学生成式模型有所降低。

光真“画”出了数字和梵高

为了展示快照式和多色光学生成式模型,研究人员搭建了一个基于自由空间、工作于可见光波段的硬件系统。波长为 520 nm 的激光被准直后,用以均匀照射 SLM。SLM 显示的是由浅层数字编码器处理并预先计算得到的相位图案,也就是光学生成种子。

这些编码后的相位图案通过分束器后调制光场,接着被另一块 SLM 处理,该 SLM 作为固定或静态的解码器使用。对于每一个光学生成式模型而言,优化后的解码器表面状态是固定的,而同一套光学架构可通过切换状态,生成符合不同目标分布的图像。在快照式光学生成式模型的输出端,生成图像的光强信息由图像传感器捕获。

根据所训练的数据集,该光学生成式模型能够输出梵高风格的人物、建筑或植物图像,也可以生成 0 到 9 的手写数字图像,或是时尚配饰的图像。其中,数字和配饰图像为黑白图像,而梵高风格的图像则为彩色图像。通过一个纯粹基于硬件物理规律实现的机器学习模型,直接生成具有特定特征的全新图像,此前尚未实现。


图|多色光学生成式模型的数值和实验结果,用于创作绚丽的梵高风格艺术作品。与采用 1000 步迭代的教师数字扩散模型对比。

当向模型输入随机种子时,虽然生成的图像各不相同,但仍属于与训练数据相同的类别。例如,使用梵高风格肖像作为训练数据的模型,会输出一系列具有梵高画风的人物图像,而不同的随机种子可以生成戴帽子或不戴帽子的人物形象。

研究人员将他们的实验结果与实验模拟结果及完全数字化的生成模型进行了比较。他们发现,输入相同的随机种子,这些模型所生成图像的质量与光学生成式模型基本相当

光学生成,充满新机遇

研究团队通过衍射网络架构,从噪声图案中演示了快照式光学图像生成。他们的框架能够从噪声中光学生成多样化图像,展现出一种高度理想的“创造性”快照图像生成能力,超越了以往研究的范围。

此外,在不更改架构或物理硬件的前提下,仅通过将衍射解码器重新配置为新的优化状态,就能实现适应不同数据分布的光学生成。这种光学生成式模型的灵活性,对于边缘计算、增强现实、虚拟现实显示等领域具有重要意义,也适用于各类娱乐相关应用。

研究结果还表明,在教师扩散概率模型(DDPM)的引导下,可以对目标分布的知识进行蒸馏。通过模拟扩散过程,迭代光学生成式模型能够以自监督方式学习目标分布,避免模式崩塌,并生成比原始数据集更加多样的结果。迭代式光学生成式模型还具有去除数字编码器的潜力,可根据不同数据分布生成多样化输出。

当然,光学生成式模型仍面临一些普遍性挑战。其中之一是光学硬件或系统配置中可能出现的错位和物理缺陷;另一个挑战在于光调制器设备或其表面可实现的相位位深有限,而这些器件用于物理呈现生成的光学生成种子及解码层。

为应对这些挑战,可以在训练过程中直接引入相关限制条件,使数值优化系统更好地符合物理限制与本地硬件的性能条件。这一策略相较于忽略位深限制的训练方法,在性能上实现了明显提升。

该分析中的一个关键发现是,仅需使用三个离散相位水平的相对简单解码器表面,就已足以完成图像生成。这为用被动的、薄层表面替代解码器带来了可能。

基于该方法,还可以设计空间或光谱复用的光学生成式模型。光学生成式模型还可实现三维图像的体积生成,为增强现实、虚拟现实和娱乐等应用带来新机遇。

整理:小羊

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

草莓解说体育
2026-01-07 01:43:18
李湘的事儿大吗?

李湘的事儿大吗?

奖一罚十
2026-01-23 21:25:51
梁小龙葬礼曝光,布置两个灵堂,“大人物”来了,恶心的一幕发生

梁小龙葬礼曝光,布置两个灵堂,“大人物”来了,恶心的一幕发生

凡知
2026-01-26 15:28:50
lululemon“走光门”,比“漏胸内衣”还离谱!

lululemon“走光门”,比“漏胸内衣”还离谱!

广告案例精选
2026-01-26 15:17:18
公司一把手裁员能多随便?网友:西安一家电缆公司才是裁员天花板

公司一把手裁员能多随便?网友:西安一家电缆公司才是裁员天花板

带你感受人间冷暖
2026-01-25 00:05:08
近7轮独造5球!曼联水货彻底蜕变 詹俊:这有阿莫林的功劳

近7轮独造5球!曼联水货彻底蜕变 詹俊:这有阿莫林的功劳

球事百科吖
2026-01-26 05:50:02
梅洛尼:强烈愤慨,决定召回大使

梅洛尼:强烈愤慨,决定召回大使

上观新闻
2026-01-25 20:27:05
国务院:免去李旭的新疆生产建设兵团副司令员、中国新建集团公司副总经理职务

国务院:免去李旭的新疆生产建设兵团副司令员、中国新建集团公司副总经理职务

上观新闻
2026-01-26 16:37:03
杭州有雨夹雪、雪!这波太猛,明天提前准备

杭州有雨夹雪、雪!这波太猛,明天提前准备

鲁中晨报
2026-01-26 13:51:04
车辆年检迎新变化,6-15年车主必看,网友:太赞了!

车辆年检迎新变化,6-15年车主必看,网友:太赞了!

复转这些年
2026-01-25 23:52:46
当年举报毕福剑的张清,落得何种结局?

当年举报毕福剑的张清,落得何种结局?

深度报
2026-01-22 23:29:58
美以联手追踪镇压伊朗抗议的责任人,目标名单每分钟扩大

美以联手追踪镇压伊朗抗议的责任人,目标名单每分钟扩大

桂系007
2026-01-26 03:51:49
U23国足迎来阵容重组,李昊拜合拉木等12名主力退出国家队

U23国足迎来阵容重组,李昊拜合拉木等12名主力退出国家队

丁蓳解说
2026-01-26 00:40:24
俱乐部宣布杨鸣辞去辽宁男篮主教练,此前球队遭遇四连败,排名滑落至第13位,辽宁省篮协工作人员:他目前还是协会法定代表人

俱乐部宣布杨鸣辞去辽宁男篮主教练,此前球队遭遇四连败,排名滑落至第13位,辽宁省篮协工作人员:他目前还是协会法定代表人

极目新闻
2026-01-26 17:10:07
随着莱巴金娜2-0,澳网女单8强仅剩1席,美国大赢家,占半壁江山

随着莱巴金娜2-0,澳网女单8强仅剩1席,美国大赢家,占半壁江山

郝小小看体育
2026-01-26 15:09:33
这是最后通牒!国防部发出的“全时待战”信号,字越少,事越大!

这是最后通牒!国防部发出的“全时待战”信号,字越少,事越大!

南权先生
2026-01-26 15:33:57
普京:乌克兰不割地,和平毫无可能;泽连斯基:没有100万乌军,欧洲无法独自面对 | 狼叔看世界

普京:乌克兰不割地,和平毫无可能;泽连斯基:没有100万乌军,欧洲无法独自面对 | 狼叔看世界

狼叔看世界
2026-01-24 15:41:25
央视曝光!又一网红产品暴雷,长期食用伤肝肾,很多家庭都在用

央视曝光!又一网红产品暴雷,长期食用伤肝肾,很多家庭都在用

北纬的咖啡豆
2026-01-26 14:16:40
徒手独攀台北101,是人类对AI模拟一切的最有力反击

徒手独攀台北101,是人类对AI模拟一切的最有力反击

不懂经1人独角兽
2026-01-25 22:38:44
恶魔继母终于被枪决!此前身份被扒,临死一句话,让生母痛心

恶魔继母终于被枪决!此前身份被扒,临死一句话,让生母痛心

奇思妙想草叶君
2026-01-26 00:39:39
2026-01-26 17:55:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

广东佛山路边停车为收费出"奇招" 车主吐槽:吃相难看

头条要闻

广东佛山路边停车为收费出"奇招" 车主吐槽:吃相难看

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被实名举报代孕、插足婚姻

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

游戏
本地
手机
房产
公开课

Xbox摊牌了!想统一游戏登陆PS5的发售节奏

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

手机要闻

消息称三星Galaxy S26 Ultra手机将有纯白色版本

房产要闻

重大信号发出,官方定调海南楼市2026!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版