网易首页 > 网易号 > 正文 申请入驻

腾讯混元3D搞了个狠活:单图生成3D,背面让用户说了算

0
分享至


单张图生成3D模型,AI最怕什么?

不是分辨率不够,也不是纹理糊了——是你永远不知道背面长什么样。用户拍了一张沙发的正面照,AI生成的背面可能多出三条腿,或者干脆变成一张平板。这个问题困扰了行业多年,直到最近一组中国高校研究者给出了新解法:与其让AI瞎猜,不如让用户直接告诉它背面该是什么。

数据荒:3D生成的阿克琉斯之踵

图像生成模型有数十亿张网图可以学,文本模型啃下了整个互联网的文字,但3D数据呢?稀缺得可怜。这导致一个尴尬局面:AI见过无数猫的照片,却没见过多少只猫的完整三维扫描。让它从单图重建3D,本质上是在让它"脑补"——而脑补的结果,往往是物理上不可能存在的形状。

研究团队指出,现有方法在生成物体背面时,经常出现结构断裂、比例失调或与用户意图不符的问题。

传统思路是堆更多3D训练数据,但这事成本极高。一套专业3D扫描设备动辄上百万,人工建模更是慢工出细活。有没有捷径?研究团队把目光投向了多模态大语言模型——这些模型虽然没"见过"多少3D数据,但读过的东西足够多,知道"背包应该有肩带""椅子四条腿才稳"这类常识。

直接让语言模型输出3D?不行。语言模型的表征太抽象,缺乏空间信息,喂给3D生成器就是鸡同鸭讲。

中间商赚差价:图像生成模型当翻译

Know3D的解法是在语言模型和3D生成器之间塞一个图像生成模型,当翻译。具体配置是:Qwen2.5-VL负责理解用户指令和输入图像,Qwen-Image-Edit把理解转化为空间结构信息,最后用微软的Trellis.2生成3D模型。

语言模型读完文字指令,分析完输入图片,把"背面应该有个口袋"这类需求转述给图像生成模型。图像生成模型再输出带空间信息的表征,指导3D生成器干活。

关键问题是:从图像生成模型的哪个环节提取信息?

研究团队测试了三个选项。一是最终输出前的内部图像表征,二是用Meta的DINOv3从输出图像提取的特征,三是生成过程中的中间状态。前两种都依赖像素级结果,如果图像生成模型画错了——比如把单肩包画成双肩包——错误会原封不动传进3D模型。

中间状态赢了,而且赢得很明显。这些状态既包含语义信息(知道这是包),又包含空间信息(知道包的大致结构),还不用对最终图像的像素精度负责。哪怕生成的背面视图有瑕疵,中间状态里的结构感足够让3D生成器输出合理结果。

四分之一处的甜蜜点

提取中间状态的时机很有讲究。太早,信息还陷在像素细节里;太晚,噪声开始主导。消融实验显示,在生成进程约25%的位置截取状态,效果最佳。

这个发现本身就有趣——它暗示图像生成模型的工作流程可能是:前期搭建结构框架,后期填充纹理细节。3D生成更需要前者。

用户能控制到什么程度?论文展示的案例中,输入一张椅子的正面照,用户可以指定"背面要有横条靠背""椅腿是弯曲的"等细节,最终3D模型会忠实反映这些要求。相比传统方法只能被动接受AI的"脑补",Know3D把背面设计的主动权交还给了用户。

这对电商、游戏、建筑可视化等场景意义重大。设计师不再需要为了一张背面参考图去翻遍图库,用几句话描述就能锁定想要的效果。

开源与闭源的微妙博弈

Know3D的技术栈全链路基于开源或开放权重模型:阿里的Qwen系列语言模型和图像编辑模型,微软的Trellis.2 3D生成器。这种组合降低了复现门槛,也绕开了某些闭源模型的使用限制。

但研究团队也坦诚,当前版本对复杂交互物体的处理仍有局限。如果用户要求"背包背面要有一个能打开的卡扣",且这个卡扣在输入图像中完全不可见,模型有时会生成结构合理但功能存疑的结果——它知道卡扣长什么样,但不一定理解"能打开"意味着什么。

另一个待优化点是生成速度。三阶段流水线(语言理解→图像翻译→3D生成)比端到端模型慢,如何在保持可控性的前提下压缩延迟,是工程化的关键。

论文最后提到,团队正在探索将这一框架扩展到视频生成和4D动态场景。如果单图到3D的背面可控,那么视频序列到动态3D的时序一致性,或许是下一个攻关方向。

当AI终于愿意听用户描述"背面应该是什么样",3D生成的工作流会被改写吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为何好多小国都莫名其妙反华?马斯克一语道破本质

为何好多小国都莫名其妙反华?马斯克一语道破本质

秋巷雨潇潇
2026-04-05 18:53:20
传疯了!特朗普被传去世,数日未公开露面,引发网友热议

传疯了!特朗普被传去世,数日未公开露面,引发网友热议

魔都姐姐杂谈
2026-04-05 22:00:52
印度18米高摩天轮因超载倒塌:从底座撕裂,近80人被压或甩出,至少30人受伤,2名儿童情况危急;初步调查显示摩天轮底座不牢固

印度18米高摩天轮因超载倒塌:从底座撕裂,近80人被压或甩出,至少30人受伤,2名儿童情况危急;初步调查显示摩天轮底座不牢固

潇湘晨报
2026-04-05 20:16:12
美国制裁绞杀也门,中国硬刚警告直接出手,这回华盛顿踢到铁板了

美国制裁绞杀也门,中国硬刚警告直接出手,这回华盛顿踢到铁板了

通文知史
2026-04-05 01:10:03
4月1日起,高血压、糖尿病患者去社区办这个证,一年能省下不少钱

4月1日起,高血压、糖尿病患者去社区办这个证,一年能省下不少钱

牛锅巴小钒
2026-04-05 20:20:47
老爸测评退一赔三最多30万,而董宇辉要赔偿1.2亿

老爸测评退一赔三最多30万,而董宇辉要赔偿1.2亿

映射生活的身影
2026-04-05 16:59:07
4月5日俄乌最新:10个月以来最好的一次

4月5日俄乌最新:10个月以来最好的一次

西楼饮月
2026-04-05 19:42:11
历史第一人!孙颖莎胜王曼昱,获澳门世界杯三连冠

历史第一人!孙颖莎胜王曼昱,获澳门世界杯三连冠

体坛周报
2026-04-05 20:58:17
同战温特!一个横扫,一个被横扫,孙颖莎与王艺迪的差距在哪里?

同战温特!一个横扫,一个被横扫,孙颖莎与王艺迪的差距在哪里?

田先生篮球
2026-04-05 12:55:08
遗憾!中国航天又一次发射失利,损失一枚大火箭

遗憾!中国航天又一次发射失利,损失一枚大火箭

深蓝财经
2026-04-05 21:11:48
深夜!美伊谈判,突传重磅!

深夜!美伊谈判,突传重磅!

证券时报
2026-04-06 00:22:04
“自动铅笔”事件火了,面相学果然权威,带入同学视角天都塌了!

“自动铅笔”事件火了,面相学果然权威,带入同学视角天都塌了!

番外行
2026-04-04 12:52:45
底牌全打光!霍尔木兹、真主党、胡塞全失效,饥荒蔓延,民生凋敝

底牌全打光!霍尔木兹、真主党、胡塞全失效,饥荒蔓延,民生凋敝

番外行
2026-04-05 00:05:11
连人民日报也怒批:别再讲正确的废话,群众要的是有用的真话!

连人民日报也怒批:别再讲正确的废话,群众要的是有用的真话!

细说职场
2026-04-05 15:02:32
王楚钦:我非常庆幸我做到了,我“活到”了最后

王楚钦:我非常庆幸我做到了,我“活到”了最后

懂球帝
2026-04-05 22:22:17
优思益:公司已无力进行相关售后及客诉服务,整体处于崩溃边缘

优思益:公司已无力进行相关售后及客诉服务,整体处于崩溃边缘

界面新闻
2026-04-03 16:32:06
研究首次绘制出完整的阴蒂神经网络

研究首次绘制出完整的阴蒂神经网络

生物学霸
2026-04-03 17:24:20
川崎老员工深夜吐真言:整个日本摩托圈,现在最怕一个中国修车娃

川崎老员工深夜吐真言:整个日本摩托圈,现在最怕一个中国修车娃

潮鹿逐梦
2026-04-05 20:06:47
重磅:乌克兰在利比亚消灭俄情报总局的将军阿韦里亚诺夫!

重磅:乌克兰在利比亚消灭俄情报总局的将军阿韦里亚诺夫!

项鹏飞
2026-04-05 20:46:38
别吃,寄生虫达上千条,近期正大量出现

别吃,寄生虫达上千条,近期正大量出现

番禺台
2026-04-05 08:11:02
2026-04-06 02:51:00
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
795文章数 7关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

伊朗官员提开放霍尔木兹海峡条件

头条要闻

伊朗官员提开放霍尔木兹海峡条件

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

手机
本地
艺术
公开课
军事航空

手机要闻

OPPO Find X9s Pro银色哈苏专业增距镜亮相:观赛神器 颜值拉满

本地新闻

跟着歌声游安徽,听古村回响

艺术要闻

高210米,砸13亿!厦门“矿泉水瓶大楼”即将建成!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美飞行员获救细节:美伊发生激烈交火 至少4死1伤

无障碍浏览 进入关怀版