网易首页 > 网易号 > 正文 申请入驻

腾讯加速造“世界”

0
分享至



“如果没有开源,没有去和社区交流,我们靠闭门造车是空想不出来的。”近日,在接受字母榜独家专访时,腾讯混元3D团队负责人郭春超这样说道。

郭春超的感慨来自于在近期的开源社区中,国产模型“搅动”了整个大模型业界的开源生态, Hugging Face的模型热度榜单被中国企业连续“霸榜”。最多时,前10开源席位中有9个来自中国。在排名前几的选手中,除了 “Text Generation”(文本生成)、“Text to Image”(文生图)等常见模态外,一款并不常见的“Image to 3D”(图生3D)模型挤入前三名,榜单中显示其为腾讯开发的“混元3D世界模型1.0”。

“混元3D世界模型1.0”是腾讯混元3D系列的最新成果,在不久前结束的WAIC(世界人工智能大会)上发布并全面开源。在产品演示中,该模型可以用一句话、一张图生成一个可漫游、可编辑的3D世界。尽管有分析显示,该模型能力还在早期阶段,但其技术论文迅速登顶了Hugging Face的论文热度榜单。

近年来,腾讯在大模型领域版图不断扩展,但在传统的语言模型板块,腾讯旗下元宝等C端产品,就陷入了行业内同类产品的高强度“内卷”。而在有些“冷门”的3D模型领域,腾讯却迅速在国内较早形成产品规模化。这背后的驱动力,似乎来自那些腾讯最赚钱的业务。

“腾讯在游戏、影视、动漫等业务都会用到3D建模,为混元3D模型的发展提供了需求场景。”据郭春超介绍,已经有数十个游戏的项目组在使用混元3D的模型能力。一位腾讯方面人士向字母榜表示,这其中就包括《元梦之星》等主力产品。

据腾讯方面人士介绍,自2024年11月发布并开源首代3D生成模型以来,混元3D系列持续迭代。今年4月,混元3D系列迭代至2.5版本,在建模精细度上大幅提升,有效面片数增加超10倍。同时,腾讯还发布了面向创作者的3D AI创作引擎,以满足游戏开发、动画影视及3D打印等领域的专业需求。相关数据显示,混元3D模型系列在Hugging Face平台下载量已超过230万。



“越来越多的游戏开发者、3D打印企业及专业设计师采用混元3D模型来生成数字资产。”在刚刚发布的腾讯Q2财报中,提到混元3D系列受到业内认可的现状,对于模型的技术水平,财报中的描述为“领先行业的几何精度、纹理真实度、指令与3D对齐能力。”

另一方面,“3D世界模型”是3D生成大模型中的新锐领域,直到去年才在业内崭露头角。去年年底,“AI教母”李飞飞创业公司World Labs展示了一图生成3D世界的AI系统,随后,谷歌DeepMind也发布了可通过单张图片或文字描述,生成3D场景的大型基础世界模型Genie 2,并于上周更新至Genie 3。

Genie 3能以每秒 24 帧的速度实时导航,并以 720P分辨率保持几分钟的一致性。不过,和混元3D世界的技术路线不同,Genie 3更侧重于打造一个动态、多帧一致的交互式模拟世界,可以逐帧生成一个实时交互3d场景,但并不具备像混元3D世界那样导出mesh场景的能力。

事实上,“世界模型”并不是一个新鲜概念,早在上世纪90年代开始,就已在机器人导航工具领域应用。而进入大模型时代后,由人工智能驱动的世界模型,已经逐渐在包括具身智能、AR/VR、游戏影视开发等领域内,发挥基建性的作用。

“它既可以复刻一个虚拟的世界,去创造一个虚拟社交/游戏的场景,也可以创造一个模拟真实场景、比如展览会等复制现实的形态。”谈及3D世界模型给未来提供的想象空间,郭春超提供了他的思考。

为什么腾讯要瞄准3D模型赛道?3D世界模型真的能给游戏/动画行业带来产业革命吗?日前,在深圳的一个炎热午后,郭春超向字母榜回应了上述问题。

“在这个行业内,只要一中断,就在业界没有声音了。”在郭春超看来,想要在新领域站稳脚跟,对新技术的持续跟进和投入。这样的观点在业内并不缺少案例, Meta早在去年就发布了Meta 3D Gen,一度处于业内领先的水平。但随后Meta并未持续在3D生成领域发力,更新节奏一度中断,直到今年5月才推出Meta 3D Gen2.0。

“一个模型团队需要持续交付出好的东西,如果有一个阶段没有交付出来,后面可能就要还‘技术债’。” 总结混元3D团队的发展历程,郭春超这样说道。

|对话|

3D大模型,正在前半程奔跑

字母榜:和其他类型的大模型不同,3D生成模型是大众用户感知相对较弱的领域。作为资深从业者,你能简单总结一下目前3D生成所处的阶段吗?

郭春超:3D模型是一个发展相对较新、较晚的领域,大约在2024年业界才开始加大投入、今年才看到商业拐点并爆发。相比之下,LLM(大语言模型)从2022年就出现了比较成熟的产品,比如GPT3.5的出现。现在所处的阶段,可以类比在LLM中,GPT2-GPT3之间并接近GPT3的一个状态。

字母榜:你是说,3D生成模型还在一个比较早期的阶段?

郭春超:是的。现在属于是前半段赛程,在3D资产生成领域,希望到年底能做到类比LLM中GPT3.5的水平。

字母榜:在3D模型领域,腾讯是国内走得比较快、做得也比较多的一家企业,而其他国内头部企业似乎没有将3D模型作为主要方向。为什么腾讯会瞄准3D模型赛道,这背后有怎样的战略考量?是否有来自公司内部的场景或需求,在驱动你们做这个事情?

郭春超:我们主要围绕两个大方向进行布局。一个是业界的技术发展趋势,另一个是我们腾讯的业务需求。在技术发展趋势上,过去一年中,业内3D模态的发展速度非常快。国外企业像Meta、Google都在3D模型领域有重点投入,3D模态对我们理解三维物理世界必不可少。

从自身业务布局角度而言,腾讯在游戏、影视、动漫等业务都会用到3D建模,为混元3D模型的发展提供了需求场景。至于国内其他的企业,在这方面可能也有布局,但不一定像腾讯投入这么大。

字母榜:有没有混元3D团队与上述内部业务合作的具体案例?哪些团队和混元3D业务的关联是最紧密的?

郭春超:比如在游戏板块,我们已经合作了多个团队,但由于保密原因不能公开。不过,已经有数十个游戏的项目组在使用混元3D的模型能力。

另一方面,我们和腾讯云是内部合作关系,腾讯云会把混元3D的一些能力赋能到外部。比如说设计Agent Lovart,以及3D 打印品牌拓竹科技、创想三维等。



字母榜:在迭代模型能力的时候,你们会参考内部团队的意见或需求吗?

郭春超:这个肯定会的。基本上我们会把很多业务共性的需求汇总起来,作为后续研发方向的指导。

AI“造”世界的抽卡难题

字母榜:今年1月,3D AI创作引擎2.0上线时,你曾表示:“3D模型生产的视觉合格率,仅用一年时间就从20%提升到60%的水平。”而混元3D世界模型的生成场景要更复杂,目前该模型生成质量符合你的预期吗?

郭春超:世界模型目前还处于早期阶段,可能比混元3D 1.0当时所处的阶段还要再早一点。单个物体生成,模型输出的就是单个资产,像一个人、一张桌子子,可约束的条件相对较多。

但世界模型是一整个开放3D世界的生成,有真实的、有虚拟的;有自然的、也有室内的。所以它的生成难度较高,涉及空间稳定性、物理规律等影响因素也更多,因此它的发展可能需要更长时间。

字母榜:如果要量化混元3D世界模型的合格率,你认为能达到多少?

郭春超:不同的任务不一样。如果是简单的一个展厅,只是进入这个场景浏览一下,目前能做到30%-40%的合格率。如果有更高品质的要求,比如说在自动驾驶场景,或者高品质游戏的搭建,那以目前的模型能力,可能连10%的合格率都做不到。

字母榜:说起合格率的问题,背后其实有一个可控性的因素。相比物体3D模型,3D世界模型的生成任务更复杂,对可控性要求是否会更高?

郭春超:关于可控性问题,本质上是模型能力能不能稳定激发出来。很多时候大模型在使用中需要“抽卡”(多次生成),通过强化学习等手段,我们希望把“抽卡”的能力稳定下来,大幅提高了可控性。

而对于3D世界模型而言,提高生成的稳定性是更复杂的工程,我们需要从数据端、模型架构、预训练策略、后训方法(包括SFT、强化训练等环节),系统性的都“加固”一遍,最终才能逐步提升。

此外,在产品层面,我们后续也会逐渐降低用户使用门槛,比如说帮助用户去做更多的prompt改写,亦或者提供更多模态的输入,例如“文+图”或“文+多张图”,使其可控性能更契合用户的想法。

字母榜:在今年早些时候,腾讯的游戏制作人王智刚老师曾表示,面数控制能力对游戏研发来说是至关重要的,某些游戏项目需要的3D模型可能只有几千面,但一些大模型上来就是几万面。而相比3D物体生成,3D世界生成的复杂性会更高,针对这一问题你们是否有进展?

郭春超:针对如何控制3D世界模型的生成文件大小,我们一直在优化。最开始使用了3D高斯泼溅技术,但那会导致文件很大,后面我们将其转成了面片的形式,压缩了几十倍的大小。

未来,相信随着业界基建的发展,更好的渲染方式、更好的引擎出现,以及伴随着模型层面的迭代,以及伴随着模型层面的迭代,能把这个问题更好地解决。

字母榜:目前,网页版的混元3D世界模型包含两种生成模式,前一种是基于文本/图像,生成一个全景图式的Skybox,后一种则是基于全景图去生成3D世界。不过,目前在网页端,即使生成了一个3D网格世界,能够探索的范围也很小,为什么要做这样的限制?

郭春超:这是因为在纯3D的场景里面,如果想要大范围探索,会涉及到很多参数的设置,比如说哪里该有空气墙,哪里能进去,还是需要有专业人士进行进一步的调整。

目前,无论是创作3D单体还是3D场景,要打包到引擎当中去开发成一款游戏,还是有一定的专业性。在3D世界模型的1.0阶段,我们更多的是帮助创作者,去降低制作这些场景资产的门槛,但是还不能100%替代人工。

下一代3D模型:交互性+真实性

字母榜:行业也有类似的产品,宣称可以实时生成游戏世界。这是某个海外团队的产品demo,和混元3D世界模型对比的话,你认为这两个产品的技术路线有什么差异?

郭春超:看了一下演示,他们可能采用的是视频生成的模式,本质上是预测画面的下一帧。演示中的人物形象是一直往前走的,如果走了一会再回头,会发现后面的山或者其他素材会消失。事实上,因为视频生成数据量非常大,目前视频生成技术还不能彻底进入游戏的管线。

字母榜:不过实时生成游戏世界的理念,最近在业内热度还蛮高,混元下一步会有这种想法吗?

郭春超:下一步,我们探索会结合3D和2D场景下的几种模态,推出一个World Play的交互模型,预计在今年下半年推出。这个版本有望既解决了2D稳定性的不足,又解决了3D生成多样性的不足,把两者的优点结合起来。



图注:混元世界模型1.0应用概览图

字母榜:此前你曾表示,3D生成模型的发展还面临一些挑战。其中之一是数据的不足,在3D模型领域只有千万量级的数据,并且没有被充分的利用。目前你们在数据利用层面是否有新的进展?

郭春超:是的。我们目前用了大量的图和视频的场景,用来缓解了3D素材产能不足。尤其是大量的视频场景,可以转化为3D信息,进而指导我们去做三维世界的生成。而且最终生成的3D世界,既可以以3D的形式保存,也可以渲染成视频,得到一个视频或某一帧图像。

当然,在纯3D文件领域,我们基于很多游戏资产等内容,半自动化搭建了很多3D场景。所以,在混元3D场景(世界)训练中,既用到了图像、视频,也用到了很多原生3D场景。相比此前的3D物体模型,在数据的丰富度有了较大提升。

字母榜:我们也留意到了前段时间发布的“混元游戏视觉的生成平台”。混元3D系列该平台上也扮演了比较重要的角色,这是混元3D业务在应用层面规划的一部分吗?

郭春超:那个游戏平台更多的是我们针对游戏行业做的第一步的解决方案,它会持续迭代,后面我们也会有更多的游戏相关的功能加入到里面,形成一个更完整的游戏Paas(平台及服务)解决方案。

我们会把游戏管线里面达标的、能够符合工业化生产标准的能力,集成到游戏平台里面去。但如果是还处于前期探索阶段的能力,我们会先研发一段时间,达到工业化水准时再搬进去。

字母榜:按照你之前的评价,混元3D世界模型似乎是你说的后者,离工业化还有些距离。

郭春超:距离游戏管线是这样,还需要一段时间。如果只是用在一些VR的观看场景,可能已经部分可用了。

字母榜:混元3D世界模型2.0的一些优化方向,能不能透露一下?

郭春超:我们的2.0会在真实世界场景呈现上进行比较大的投入。因为目前的1.0更多聚焦在虚拟世界生成上,但是现实中也有很多应用场景是需要真实感的,比如做一个线上的展览会,想让人有身临其境的感觉,那就需要提升模型搭建真实场景的能力。

字母榜:近期WAIC上腾讯也同步了一些具身智能的进展,其中有提到“多模态感知”这个板块,这一部分会有混元3D能力的介入吗。

郭春超:新推出的混元3D世界模型暂时没有在具身智能里面应用,但是我希望后面能提供3D的场景或者是世界生成的能力,包括刚刚提到的世界模型2.0,能够更多地去赋能具身智能场景。

开源拥抱未来,思考星辰大海

字母榜:回顾过去9个月,混元3D系列陆续发布并开源了多款模型,此前还更新了一个面向专业设计领域的Hunyuan3D-PolyGen。在规划这些细分模型场景,或者说模型产品矩阵时,你们考虑的因素有哪些?

郭春超:我们就主要考虑的是两个大的方向。第一个大的方向,是怎么做好当下。第二个大的方向,是怎么根据技术发展去拓展未来。

像我们现在做的3D资产的生成,更多的是服务于当下的业务需求。而着眼于未来,像近期推出的混元3D世界模型,可能短期内无法带来天翻地覆的变化,但随着技术的完善和成熟,未来它一定能“革命”掉很多东西。从创作方式到工业流程生产的方式,都是可能被“革命”掉的,我们发布开源就是围绕这两个思路来做的。

字母榜:3D世界模型1.0,目前看起来还是有点投石问路的意思。

郭春超:目前还处于比较早期,它会在部分场景,在VR或者是一些大家做原型场景的验证有用。但是很多事情是需要大家先把这个生态给做起来,让开源社区活跃起来,才会有更多研究者进入到这个领域里面。

字母榜:说到开源,混元3D系列模型的在Hugging Face的下载量突破了230万。您怎么理解开源社区中,广大开发者给你们的反馈?

郭春超:我们开发团队和社区是一个双向奔赴、互帮互助的状态,社区里的开发者能够基于我们发布的技术成果进行改进,降低他们的研发门槛。比如说一个开发者是研究世界模型领域的,或者是做自动驾驶领域的人,就能比较轻松把这个用起来。

如果没有开源,没有去和社区交流,我们靠闭门造车是空想不出来的。他们也给了我们非常多的信息输入,因此我觉得开源社区是一个双向共赢的事情。

字母榜:所以其实大家都非常渴望拥抱新业态,哪怕面对的是一个还不够成熟的产品。

郭春超:是的,如果一个事情已经到了商业化的拐点……

字母榜:那就该闭源了?

郭春超:(笑)这个问题我就不多做评论,但是如果到了100%商业化拐点,可能业界研究的人就比较少了。举个例子,就像手机的人脸识别已经非常成熟,可用率也很高,再做这个算法研发ROI就十分有限。所以整个大模型界研究这个领域的人就比较少了,研究者的热情更多是探索AGI怎么实现,思考一些星辰大海的领域。

字母榜:回顾过去9个月,虽然时间不长,但不管是在模型数量还是生成质量上,混元3D系列迭代得非常快,这背后的原因是什么?

郭春超:核心是做大模型三要素:算力、数据、人才,我们在这三个方面都相对做的比较好。同时依托混元大模型这个平台,包括公司层面上也给了混元特别大的支持。把三要素凑齐,是我认为能做成的第一个原因。

第二个原因是团队组织形式,我们团队非常年轻且国际化,团队博士比例大约占2/3,基本上都来自于海内外名校。此外,我们团队一直坚持工业化的打法,在团队组织和运作上都是保持非常“卷”的状态。我认为以上两个方面是能够让这个模型技术快速迭代的最大原因。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧盟没想到:中国大棒朝他来了,同意供货,但又一个“前提条件”

欧盟没想到:中国大棒朝他来了,同意供货,但又一个“前提条件”

娱乐的硬糖吖
2025-11-15 15:50:32
603122,14天12涨停!600829,5连板!这一概念火了,多只牛股诞生!

603122,14天12涨停!600829,5连板!这一概念火了,多只牛股诞生!

证券时报e公司
2025-11-15 22:28:52
罕见大举买入!巴菲特,最新持仓曝光!

罕见大举买入!巴菲特,最新持仓曝光!

证券时报e公司
2025-11-15 22:28:40
佘智江被押回消息一出,最心虚可能不是他自己,而是国外的黄有龙

佘智江被押回消息一出,最心虚可能不是他自己,而是国外的黄有龙

手工制作阿歼
2025-11-15 11:46:37
上海人自己的“胖东来”来了!开店现场全是人!

上海人自己的“胖东来”来了!开店现场全是人!

看看新闻Knews
2025-11-15 20:27:05
胡琏的老虎团有多猛?一个加强连血战华野一个师,死不投降撑三天

胡琏的老虎团有多猛?一个加强连血战华野一个师,死不投降撑三天

柳絮忆史
2025-11-15 09:33:15
东方网公众号因“一只鸭子”被封 总裁诉马化腾无理

东方网公众号因“一只鸭子”被封 总裁诉马化腾无理

大国老记老顾
2025-11-14 23:55:42
这表现是底薪球员?火箭侧翼大闸对于球队的作用真是太突出了?

这表现是底薪球员?火箭侧翼大闸对于球队的作用真是太突出了?

稻谷与小麦
2025-11-15 22:25:48
西方企业集体叛变?只要中国供应稀土,一切要求都愿意照办不误

西方企业集体叛变?只要中国供应稀土,一切要求都愿意照办不误

博览历史
2025-11-15 21:35:02
iPhone17突然宣布:11月14日,销量破1000万!

iPhone17突然宣布:11月14日,销量破1000万!

搞机小帝
2025-11-14 15:19:48
城管砸烂“老兵烧烤”,叫嚣让他随便告,凌晨领导急电:闯大祸了

城管砸烂“老兵烧烤”,叫嚣让他随便告,凌晨领导急电:闯大祸了

悬案解密档案
2025-10-22 09:48:53
爆砍41+14+11+2!抱歉伯德:你从历史第一变成了历史第二

爆砍41+14+11+2!抱歉伯德:你从历史第一变成了历史第二

篮球大视野
2025-11-15 17:36:33
小米之“惑”

小米之“惑”

经济观察报
2025-11-14 23:31:06
格拉西莫夫改变战术和方向了?

格拉西莫夫改变战术和方向了?

山河路口
2025-11-14 23:39:27
冲上热搜!孙颖莎大战王曼昱时间确定,樊振东争卫冕,CCTV5直播

冲上热搜!孙颖莎大战王曼昱时间确定,樊振东争卫冕,CCTV5直播

侃球熊弟
2025-11-15 22:33:09
加州州长选举生变:共和党人民调竟领跑,民主党或陷“票仓危机”

加州州长选举生变:共和党人民调竟领跑,民主党或陷“票仓危机”

老籣说体育
2025-11-15 10:37:53
最强帮手已出现!中国转头就对高市早苗提了终极要求,她不敢答应

最强帮手已出现!中国转头就对高市早苗提了终极要求,她不敢答应

云鹏叙事
2025-11-14 10:26:55
朴树已离婚?妻子出轨热门综艺男嘉宾章贺,朴树抑郁症加重太惨了

朴树已离婚?妻子出轨热门综艺男嘉宾章贺,朴树抑郁症加重太惨了

八星人
2025-11-15 14:25:29
骨传导耳机,拯救中年危机

骨传导耳机,拯救中年危机

Vista氢商业
2025-11-12 14:22:20
加密货币集体拉升,超13万人爆仓,比特币重回96000美元上方

加密货币集体拉升,超13万人爆仓,比特币重回96000美元上方

21世纪经济报道
2025-11-15 22:37:51
2025-11-15 23:08:49
字母榜 incentive-icons
字母榜
让未来不止于大。
2090文章数 8024关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

中方愤怒升级24小时内2次"奉示约见" 高市又有新动作

头条要闻

中方愤怒升级24小时内2次"奉示约见" 高市又有新动作

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

游戏
旅游
教育
房产
公开课

古埃及金字塔建造模拟游戏《埃及前沿》发售

旅游要闻

襄阳百米长桌宴开席,孔明灯漫天飞,这场古风市集让全网羡慕哭

教育要闻

那些高分选手,都爱和自己对线

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版