网易首页 > 网易号 > 正文 申请入驻

从对话框到数字人:魔珐星云如何让每个AI都拥有"身体"?

0
分享至

从文字、图片到视频,AI的创造力在二维世界一路狂飙。我们惊叹于ChatGPT的对答如流,也为Sora的超现实视频而震撼。但这一切精彩,都被禁锢在冰冷的屏幕上,终究是一串流动的像素,无法用真实的肢体与我们交流。

真正的下一站,是让AI走出平面,拥有一个可以在三维空间中表达和交互的身体。

在这样背景下,硅星人发现了一个3D领域中最难实现的,3D数字人的生成平台:魔珐科技旗下的星云平台,覆盖了从文本直接生成包含语音、动作、表情在内的完整3D表达的AI平台。

魔珐CEO柴金祥对硅星人讲到了他的判断:“未来每个APP都会是一个‘人’。你不再需要点击填表,只需对着屏幕上的‘她’说话,她会理解你的需求,用语言和肢体为你完成一切。”

从2D到3D,这不仅是维度的跨越,更是一场深刻的交互革命。当AI终于获得身体,我们的数字生活将如何改变?带着这个疑问,硅星人测试了星云平台,试图理解:当AI获得“身体”后,技术实现是什么,应用场景会发生什么变化。

实测星云:秒回复、零卡顿、自然表达

星云平台最颠覆的一点,是它把创造3D数字人的权力,交到了每个普通开发者手里。你不再需要专业的建模或动画团队,只需在网页上动动手指,调整几个参数,一个专属的数字人便诞生了。实时互动、语音播报、多语种切换,甚至直接生成视频,所有你需要的功能,它都为你打包好了。

一开口,我就感觉到了不同。当我们报出5000元的预算和办公需求,他几乎是立刻就给出了三个最新的型号方案。从联想、戴尔到华为,每一款的CPU、内存和续航,他都讲得明明白白,就像一位真正懂行的朋友在帮你精心挑选。

当他正在介绍硬盘参数时,我们毫无征兆地打断他,提出想看更便宜的机型。他只是停顿了大约一秒,就立刻领会了我们的新意图,无缝切换到新的推荐了最新的款式。

为了探索更多的场景,我们又测试了两个截然不同的角色:一个是一丝不苟的招聘面试官,另一个则是情感细腻的AI虚拟男友。

我们让他用英文面试一个新的岗位。他的表现像个真正的HR:提问有逻辑,从项目经验—技术栈—解决方案,英文输出很自然,还会根据回答追问细节。而AI虚拟男友的核心不是传递信息,而是提供陪伴感。最明显的是肢体语言和情绪的匹配,会摆动双臂配合撒娇语气,安慰的时候会做出轻拍肩膀的手势,语气温柔时表情也会变柔和。

测试下来最大的感受是,你不再觉得是在跟一个机器人对话,而是在与一个“活生生”的虚拟角色交流。

无论是专业术语、情绪表达还是突然改变的需求,他总能精准捕捉到话语背后的意图,不会答非所问。但更重要的是,他拥有自己的“身体语言”。他不再只是一个会动的嘴巴,推荐产品时的自信手势、撒娇时的俏皮摆臂、面试时的专注神情,都伴随着对话实时生成。

破解数字人的“不可能三角”

在流畅的用户体验背后,是星云平台的技术创新。

数字人行业存在一个长期未解决的“不可能三角”:要质量加低延时,成本会激增,无法规模化;要高并发加低成本,必须牺牲质量;要质量加高并发,延时就会上升,无法实时交互。星云平台通过模型层面的技术突破和系统层面的架构创新,来解决这个“不可能三角”。

星云的核心技术是由LAM(Language Action Model)驱动数字人,这是一个文本生成多模态3D的大模型。LAM的输出不是文本或图像,而是“身体语言”。这个差异决定了数字人的能力边界。传统数字人处理的是“说什么”的问题,而LAM要解决的是“怎么说”,同样一句话在不同场景下,语调、节奏、表情、手势会完全不同,这些细节才是让数字人显得自然的关键。

具体来说,当输入文本或语音后,模型需要理解的不仅是字面意思,还包括情绪基调、场景语境、表达意图。比如同样是“好的”这两个字,在客服场景是确认语气,在虚拟陪伴场景可能是撒娇语气,在招聘场景则是正式礼貌的回应。

理解语义之后,模型会同时生成四种模态的3D表达信号:

  • 语音层面包括语调、节奏、情绪的变化:推荐产品时语速快、语气热情,安慰时语速慢、语气温柔;
  • 动作层面包括姿态、手势、身体语言:介绍产品参数时的指向手势、强调重点时的手部动作、撒娇时的身体摇摆;
  • 表情层面包括情绪、眼神、眉目动态:微笑的程度、眼神的方向、眉毛的起伏都会根据对话内容调整;
  • 手势层面是与语义同步的肢体动作:说“这个”时手指会指向某个方向,说“大概这么长”时手势会比划距离。

这四种模态是同步生成的,不是分开处理再拼接。模型输出的是对“这句话应该怎么说”的完整理解。

但光有LAM模型还不够。如何让它快速运行、低成本部署、支持大规模并发?这需要从系统架构层面重新设计。传统数字人方案的流程是:云端渲染完整视频,传输到用户设备,然后播放。这个流程存在几个问题:渲染3D画面需要高性能GPU,云端成本极高;传输视频流需要大带宽,每路用户每秒占用数十MB;视频生成和传输都有延时,难以做到实时交互;用户量上升后,云端压力呈指数增长,难以规模化。

星云改变了这个流程。云端只负责生成参数,不渲染画面。LAM模型接收文本后,生成语音参数(音频波形特征)和动作参数(3D骨骼、表情、手势等控制信号),这些参数的数据量很小,只有几KB到几十KB。然后将这些参数传输到用户设备,这里传输的不是视频流,而是“如何渲染”的指令。



用户设备接收参数后,通过端侧AI渲染模块将参数实时转化为画面。这个模块可以运行在RK3566/RK3588等百元级国产芯片上,不需要高端显卡。整个链路的延迟在1秒左右,云端生成参数、端侧渲染画面、用户看到数字人说话,这个过程是实时的。

这种架构带来的变化是:延时从秒级降到毫秒级、带宽从每秒数十MB降到KB级、云端可以支持千路以上同时在线,同时云端不需要配备大量GPU,端侧可以用百元级芯片,整体成本据称下降到传统方案的几十分之一;端侧AI渲染模块可以运行在手机、平板、智能屏、车机等各种设备上。

技术方案背后,还有一个关键问题:LAM模型从哪里学会“说这句话应该配什么动作”?魔珐创始人柴金祥告诉我们:“3D数字人领域最大的壁垒不是算法,是数据。文本、图片在互联网随处可见,但高质量的3D动作、表情数据几乎不存在。”

魔珐从2018年起就开始积累这些数据。早期为游戏公司、影视动画公司制作3D内容时,这些商业项目产生的动画数据经过脱敏处理后成为训练数据的一部分;后期则完全自研和制作动画数据,专门组建动画团队,针对LAM模型的训练需求制作各种场景、各种情绪、各种表达方式的3D动画。目前累计了数千小时的高质量3D动画数据,涵盖人脸表情、手部动作、身体姿态、多人互动等完整数据集。

这些数据的积累周期和成本投入,构成了星云平台难以复制的护城河。

从数字人到Embodied Agent

如果只把星云理解为“做3D数字人的平台”,会错过它真正的技术定位。

星云将自己定义为语言驱动身体的具身智能平台:不是内容生产工具,而是面向开发者的基础设施。它输出的不是渲染好的视频或动画,而是“动作参数”,这些参数可以驱动虚拟世界的3D数字人,也可以驱动物理世界的人形机器人。

我们首先要区分清楚两个概念:Embodied AI(具身智能)指的是让AI具备“身体感知与行动能力”的智能形式:AI不只思考,还能通过身体与环境交互。Embodied Agent(具身智能体)是这种智能的具体载体:拥有“身体”的智能体,可以在虚拟或现实空间中感知、表达、行动和交互。区别在于:具身智能是能力,具身智能体是拥有这种能力的载体。

星云定义自己为“具身智能3D数字人平台”,聚焦的是Embodied Agent层,提供“身体”,作为承载智能的容器。大模型已经提供了“大脑”,现在缺的是让这个“大脑”可见、可交互的“身体”。一个AI客服可以用文字回答问题,也可以用语音回答问题,但这些形式都是“无形”的。星云的功能是给这个AI添加一个“身体”:3D数字人形象,让它能通过表情、手势、肢体语言表达情绪和意图。这个“身体”不只是视觉呈现,而是完整的表达系统。

开发者通过SDK或API接入星云,就能让自己的AI应用具备数字人形态。这个逻辑类似于AWS不做具体应用,但提供计算、存储、网络的基础能力,开发者基于这些能力构建应用。

更进一步的技术规划在于:从虚拟到物理的统一输出格式。星云的底层是LAM模型,输入文本或语音,输出语义一致的三维动作、表情和手势。这意味着星云的功能不限于让AI在屏幕上可见,它可能成为连接虚拟智能与物理智能的接口。

据硅星人了解,魔珐目前正在与多家人形机器人公司合作,验证这条技术路径。他们提供的不是完整的机器人方案,而是“语言→动作”的转化层:机器人厂商负责硬件和控制系统,星云负责让机器人理解对话内容并生成对应的肢体表达。

结尾:

从Embodied AI到Embodied Agent,星云平台开放的不只是API接口,而是通往“每个APP都是一个人”时代的入口。

这个判断听起来激进,但逻辑清晰。过去十年,AI的进化路径是从“专用工具”到“通用助手”:从只能识别图片的算法,到能对话、能写作、能推理的大模型。但这些AI仍然是“看不见”的,用户通过文字框或语音交互,感受到的是智能,看不到“人”。

星云要做的是给这些AI加上“身体”,不只是视觉形象,而是完整的表达系统。当AI真正拥有“身体”,从“看不见的算法”变成“站在你面前的伙伴”,人机交互方式将被重新定义。

这种重新定义不只发生在虚拟世界。从屏幕里的3D数字人到物理世界的人形机器人,星云正在打通的是同一条技术链路:语言驱动身体。LAM模型输出的动作参数,既可以渲染成虚拟形象,也可以控制物理机器人。这意味着未来的AI应用,可能同时存在于两个世界:线上是数字人客服,线下是机器人接待员;线上是虚拟健身教练,线下是陪伴型机器人,它们使用同一套“大脑”,只是“身体”形态不同。

具身智能时代的全貌我们尚难预见,但可以确定的是,我们正在经历的不只是技术升级,而是交互范式的转变:从人适应机器,到机器理解人。星云提供的是这个转变的基础设施,一切才刚刚开

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
撕毁合同倒向日本,拒赔中国361亿违约金,这个国家如今怎么样了

撕毁合同倒向日本,拒赔中国361亿违约金,这个国家如今怎么样了

南宗历史
2026-01-03 13:29:55
新华社快讯:特朗普称已抓获委内瑞拉总统

新华社快讯:特朗普称已抓获委内瑞拉总统

新华社
2026-01-03 17:28:06
瑜伽裤怎么穿才好看?街头美女的时尚造型,穿出不一样的效果

瑜伽裤怎么穿才好看?街头美女的时尚造型,穿出不一样的效果

灼灼小齐
2026-01-03 00:30:03
重磅!上海豪掷超2400亿布局十大工程,2026年将改变千万人生活

重磅!上海豪掷超2400亿布局十大工程,2026年将改变千万人生活

石辰搞笑日常
2026-01-03 07:26:45
宝玉大婚那天,北静王闯入贾府,见病榻上黛玉:本王来接王妃回家

宝玉大婚那天,北静王闯入贾府,见病榻上黛玉:本王来接王妃回家

星宇共鸣
2025-12-30 09:48:25
陪睡陪玩只是表象,王晶怒揭霍家秘辛,震惊娱乐圈

陪睡陪玩只是表象,王晶怒揭霍家秘辛,震惊娱乐圈

冷紫葉
2025-11-07 14:57:29
中超教练就差 北京国安跟成都蓉城 没有官宣

中超教练就差 北京国安跟成都蓉城 没有官宣

80后体育大蜀黍
2026-01-03 17:20:56
油价大降超0.53元/升,元旦假期油价跌到6元时代后,1月6日或上涨

油价大降超0.53元/升,元旦假期油价跌到6元时代后,1月6日或上涨

油价早知道
2026-01-03 00:15:43
中国女首富,以7800亿超越华为成为国内最大民企,她哪来那么多钱

中国女首富,以7800亿超越华为成为国内最大民企,她哪来那么多钱

牛牛叨史
2025-12-14 17:07:17
空袭开路,特种兵斩首!美国对委内瑞拉整体作战部署浮出水面!

空袭开路,特种兵斩首!美国对委内瑞拉整体作战部署浮出水面!

阿龙聊军事
2026-01-03 18:33:37
瑞士酒吧大火增至47死115伤,16岁意国高球天才新星罹难。

瑞士酒吧大火增至47死115伤,16岁意国高球天才新星罹难。

环球趣闻分享
2026-01-03 13:10:03
《再见爱人5》李施嬅下车,结束八年感情!胡彦斌掀桌

《再见爱人5》李施嬅下车,结束八年感情!胡彦斌掀桌

巧妹电影
2026-01-03 13:41:56
东北歌手汪苏泷在广州被冻哭了

东北歌手汪苏泷在广州被冻哭了

新快报新闻
2026-01-03 14:23:08
排超联赛:江苏女排3-0山东,吴梦洁、唐欣强势,张籽萱多点开花

排超联赛:江苏女排3-0山东,吴梦洁、唐欣强势,张籽萱多点开花

骑马寺的少年
2026-01-03 18:18:18
广东省委书记黄坤明2026年元旦首站走访亿航智能调研,寄语企业持续技术创新引领低空行业发展

广东省委书记黄坤明2026年元旦首站走访亿航智能调研,寄语企业持续技术创新引领低空行业发展

无人机网
2026-01-03 15:52:25
法棍为什么这么硬?

法棍为什么这么硬?

有意思报告
2026-01-02 11:30:15
《求是》:房地产政策要一次性给足,不能让市场与政策陷入博弈

《求是》:房地产政策要一次性给足,不能让市场与政策陷入博弈

财富情报局
2026-01-03 13:23:23
1983年严打后,重刑犯都被遣送大西北,最终是什么结局?

1983年严打后,重刑犯都被遣送大西北,最终是什么结局?

观史搜寻着
2025-12-03 22:30:28
“踮脚尖”立大功?医生直呼:每天踮脚10分钟,或能收获4大好处

“踮脚尖”立大功?医生直呼:每天踮脚10分钟,或能收获4大好处

小胡军事爱好
2026-01-02 15:42:29
《寻秦记》成本2.3亿票房预测不到3亿,古天乐得赔多少钱?

《寻秦记》成本2.3亿票房预测不到3亿,古天乐得赔多少钱?

并不擅长圈粉的铁任
2026-01-02 22:03:38
2026-01-03 19:35:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2762文章数 10425关注度
往期回顾 全部

科技要闻

比亚迪销冠!特斯拉2025年交付量跌逾8%

头条要闻

美国突袭委内瑞拉抓获马杜罗 多国强烈谴责

头条要闻

美国突袭委内瑞拉抓获马杜罗 多国强烈谴责

体育要闻

快船似乎又行了

娱乐要闻

“国服嫂子”司晓迪,曝与多位男星私照

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

本地
手机
旅游
房产
公开课

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

手机要闻

1月新机盘点:五款“灭霸级”中端机扎堆发布,谁会脱颖而出?

旅游要闻

赏冰雪、看秧歌、赶大集 宝清文旅融合迎新年

房产要闻

海大誉府新年家年华暨2号楼耀世加推发布会圆满落幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版