网易首页 > 网易号 > 正文 申请入驻

从文字到语音交互,AI 的下一个爆发点可能是拥有自己的身体

0
分享至


从 AI 女友到数字面试官,人格化 AI 正在「登陆」你的所有屏幕。


作者|Li Yuan

编辑|郑玄

你最近的社交媒体,大概率也被 Sora 生成的那些既熟逼真又抽象的影像刷屏了。

Sora 的病毒式传播,证明了 AI 生成内容的一条黄金法则:人类最着迷的,永远是人类自己。这些影像之所以能迅速成为一种赛博奇观,超越以往所有 AI 视频的传播力,正是因为它第一次高质量地将创作主体从风景、动物,聚焦到了人类自身。

但热潮过后,一个更现实的问题浮出水面:Sora 生成的数字人无论多么逼真,本质上仍是活在预设脚本里的「演员」。它们是内容生成的终点,却无法成为实时交流的起点。在这种「文生视频」的范式下,AI 被困在一次性的创作流程中,这与一个能随时响应、无处不在的智能伙伴相去甚远。

那为什么一个能随时响应的AI数字人,至今仍未普及?

主要原因就是成本。

而这一矛盾,正是下一轮技术演进的发力点。

10 月 29 日,魔珐科技,正式发布了 3D 数字人开放平台「星云」。其核心,就是将过去属于大企业预算的「项目制」奢侈品,转变为所有开发者都能通过 SDK 快速集成的基础能力。

魔珐科技之前就是 3D 数字人的领先提供商之一,深知许多企业在听到高昂的部署价格后只能望而却步。而他们近期的技术突破,正是对这一核心痛点的精准打击:通过自研的AI算法,替代了传统渲染流程对高端GPU的重度依赖。这使得生成的数字人不仅保证了高质量,还能在百元级芯片上流畅运行。

当一个高质量、可交互的 3D 数字人大幅降低了运行成本,其意义远超技术本身。这意味着,AI 终于获得了入住每一块屏幕的入场券。未来,无论是手机 App、汽车座舱,还是商场里的一块普通广告牌,都可能成为一个能与你自然对话的智能体。人机交互的下一个范式,或许正由此开启。

01

「星云」是什么?:

让 AI 的「具身表现力」变成基础设施

在理解魔珐科技发布的「星云」平台之前,有必要先厘清一个事实:我们今天在屏幕上看到的「数字人」,并非出自同一种技术。它们看似相似,背后却是不同时代、不同成本、不同妥-协下的产物。

最常见的一类,是预先制作的「2.5D」视频。这类数字人更像是高级的「PPT 动画」,通过 AI 技术将文本合成为一段带有口型和简单动作的视频。它们解决了信息播报的需求,但本质上是「只读」的,无法进行任何实时的、个性化的交互。

更进一步的,则是依赖「中之人」(即背后有真人在实时驱动)的虚拟主播。这类方案保证了高质量的互动性,但成本与真人无异,无法规模化,也并非真正的「人工智能」。

而真正代表着未来的,是完全由 AI 驱动的、可实时交互的 3D 数字人。

这背后有一个清晰的逻辑:大语言模型在理解、推理和生成内容上的「智商」已经受到了广泛认可。当这颗强大的「大脑」被赋予一个能够表达的「身体」时,人机交互将发生质变。通过叠加具有人类情感温度的语音(有人味儿)、能够传递微妙情绪的微表情、以及建立信任感的肢体语言,AI 的回应将不再仅仅是信息的传递,而是一次完整的、个性化的交流。

它有望提供一种超越「皮下之人」(中之人)的服务体验——AI 没有情绪疲劳,可以 7x24 小时保持最佳状态;它可以瞬间调动全部知识库,为每一个用户提供深度定制的反馈。最关键的是,这种高质量的、极度个性化的服务能力,第一次可以被无限地、低成本地规模化复制。这,是人类服务者永远无法企及的优势。

魔珐科技正是这个领域的先行者之一,但在此之前,纯 AI 驱动始终面临着一道难以逾越的「成本高墙」,导致其商业模式长期停留在项目制。

一个实时的 3D 数字人,无异于一部需要 7x24 小时不间断渲染的 3D 动画。它的每一个微表情、每一次手势、甚至每一根发丝的飘动和衣物的褶皱,都需要进行复杂的图形计算(渲染)和物理演算(解算),才能保证逼真和流畅。在传统架构下,这些计算的重担,几乎全部压在了云端的高端 GPU 上。

这就形成了一个无法调和的矛盾:要保证高质量,就必须投入昂贵的 GPU 资源,导致单路交互的部署成本轻松突破数万元;要降低成本,就只能牺牲质量和实时性。这堵由 GPU 筑起的高墙,将真正的交互式 AI 数字人,排除在更广众的应用之外。

不过,此次发布的「星云」的全新管线则彻底重构了这一流程。通过通过自研的AI算法,替代了传统渲染流程对高端GPU的重度依赖,一次性解决了成本、延迟、并发的三座大山。

新的技术栈将任务进行了巧妙的分工:

  • 云端(大脑):当接收到文本指令后,AI 模型不再直接渲染庞大的视频流。它只负责「决策」,即生成一套描述数字人下一秒该做什么的、极其轻量化的「行为参数」,包含语音、口型、表情、姿态等指令。

  • 终端(身体):这些轻量化的参数被迅速传输到用户设备上。真正执行渲染和解算工作的,是部署在终端上的、经过高度优化的 AI 模型。这个本地的 AI 渲染器,接收的是轻量化参数流,输出最终的视频画面。它就像一个技艺精湛的本地画师,根据云端发来的「剧本」,实时地在用户屏幕上绘制出最终的画面。

这一模式巧妙地绕开了最大的成本中心。它既不需要用户拥有一部搭载高端芯片的手机,也无需为云端昂贵的 GPU 付费。由于终端的 AI 渲染模型是用最高质量的离线渲染数据训练而成,它学会了用极低的算力「复刻」出媲美高端 GPU 的画面效果。这直接解锁了高质量低成本的数字人的应用空间。

从官网提供的样例来看,其唇形同步的精准度极高,完全不存在廉价数字人常见的「木偶感」,证明了这一路径的可行性。

更关键的是,这种「云端决策、终端渲染」的架构创新,带来了一系列连锁效应,一举解决了另外两个长期困扰行业的瓶颈。

首先是延迟问题。传统模式下,云端渲染完视频再传输到用户端,网络延迟是巨大瓶颈。而「星云」传输的只是 KB 级别的参数流,数据量远小于视频流,极大地降低了网络耗时,从而将端到端的总延迟稳定控制在 1.5 秒以内,实现了接近人类对话的响应速度。

其次是并发能力。既然最耗费资源的渲染工作被下放到了不计其数的终端设备上,云端服务器的压力便得到了极大释放。它不再需要为每一个用户都配备一张昂贵的 GPU,从而具备了支撑千万级用户同时在线交互的能力,为规模化应用扫清了障碍。

过去,企业想要一个数字人,需要经历数月的需求沟通、美术定制和技术开发。而星云的发布,意味着任何一个开发者,只需通过几行代码调用 SDK,就能为自己的 App、小程序或任何一块屏幕,快速「激活」一个能说会道的 AI 数字人。

02

当 AI 的「身体」出现,

世界将如何改变?

当曾经非标准、高门槛的能力——「具身表现力」,变成基础设施,将打开的,是一个让 AI 从「后台工具」走向「前台伙伴」的全新应用空间。

过去,我们与 AI 的交互,本质上是一种非对称的、功能驱动的关系。我们向一个无形的黑盒输入指令,它则返回一个结果。而当 AI 拥有了一个可以实时互动、传递情感的「身体」时,这一切或许都将改变。

拿我们熟悉的 AI 陪伴做例子。

AI 陪伴并非一个新概念,但长期以来,它始终被困在两种不完整的形态里:要么是缺少「在场感」的纯文本聊天机器人,要么是无法进行视觉交流的智能音箱。它们能提供信息,却难以建立真正的情感连接。

「星云」所代表的技术路径,则可能彻底改变这一现状。一个具身化的 AI 伴侣,能够通过眼神接触、点头、微笑等非语言线索,传递出文本和语音无法承载的共情与专注。它不再是一个冰冷的问答机器,而是一个能「看着你」、「听着你」说话的、有存在感的「人格」。

更关键的原因在于,过去的技术无法同时满足低成本低延迟

要让一个 AI「边听边回应」,并在对话中自然地做出点头、注视、微笑等细微动作,不只是动画渲染的问题。它还要在毫秒级的延时内完成感知、推理与生成,对算力、算法和网络延迟的要求极高。

更复杂的是,我们希望这个数字人不仅能反应灵敏,还能「认识你」。它要有独立人格,能记住每个人的偏好与历史,这意味着系统必须支撑高并发的个性化记忆,而不是播放一段事先渲染好的动画。

当运行一个高质量数字人的成本降至几乎可以忽略时,AI 陪伴的形态就会彻底反转——从一种「公共设施」,变成一段「私人关系」。

那时,每个人都可以拥有一个(或多个)深度定制的具身化伴侣:它记得你们的每一次对话,了解你的语气、节奏与习惯,并在你需要时,出现在你的手机、电脑,甚至车载屏幕上。

而在企业端,这套基础设施可能催生一支不知疲倦、能力超群且成本极低的「数字员工」大军。

魔珐科技透露,他们正与多家企业展开合作,共同探索这一模式在 B 端的落地可能。

比如金融、文旅、政务等服务场景,一个部署在银行 App 或大厅屏幕上的「AI 理财顾问」,不仅具备整个银行的知识库,还能以极大的耐心,解答用户的每一个琐碎问题。它没有情绪,不会不耐烦,永远能保持最专业的服务姿态。

更重要的是,当用户突然打断或临时提问时,它能即时暂停当前讲解并灵活应答,真正实现「对话式服务」的自然流转。

对于不熟悉智能设备的老年用户,这样的数字人还能提供更有温度的帮助:说话语速更慢、语气更柔和,用熟悉的面孔和贴心的语气,拉近人与技术之间的距离。

这一切得以实现的基础,同样是技术的普及化。当企业不再需要为每一路客服都支付数万元的硬件成本,便可以轻松地将「数字员工」部署到每一个服务触点,从而在提升效率的同时,保证服务体验的温度和一致性。

「具身表达力」,或许将深刻改变我们获取知识与交互沟通的方式

在教育场景中,它能让抽象的知识长出「人格」。

想象一下,学习外语时,你的陪练不再是一个冰冷的 App,而是一位口型标准、表情生动的虚拟语伴。你可以直观看到他/她发音时的口型变化,获得实时反馈与纠正——学习过程更沉浸,效果也远超传统模式。

而在消费电子领域,电视制造商正迎来另一种想象。过去他们一直希望在软件与服务层找到突破口,却受限于硬件成本——要在电视中塞进一块高端 GPU,只为实现流畅的 3D 交互,几乎不可能。

「星云」的低成本方案,让这种 AI 助手能直接运行在电视自带的百元级芯片上,使「人格化交互」第一次可能成为电视的标配,而非选配。

于是,电视不再需要复杂的遥控器和层层嵌套的菜单。一个常驻在屏幕角落的AI伴侣,将成为家庭的交互中心。这不只是体验的进化,更可能是一场商业模式的重构——AI 第一次让电视从「内容入口」,变成「关系入口」。

如果说以上场景还局限在屏幕的虚拟世界,那么这项技术的终极潜力,则在于连接现实——驱动物理世界的机器人。

魔珐的演示展示了这种可能性:驱动屏幕内 3D 数字人的那套参数,同样可以被用来驱动一个物理人形机器人的关节运动。

那个在虚拟世界里教会我们使用产品、为我们规划旅行的 AI 助手,未来或许就能直接「下载」到家中的服务机器人体内,用同样熟悉的声音、甚至模仿出的「表情」(通过屏幕或指示灯),与我们进行交流。

这让机器人真正从一个需要学习如何操作的「工具」,进化为一个可以自然沟通的「伙伴」。当 AI 的「灵魂」与机器的「身体」通过一套标准化的「表达系统」完美结合时,科幻电影中的场景,才真正有了照进现实的可能。

03

一场源自中国的交互创新

「星云」平台的发布,不仅是一次技术上的突破,更是在全球 AI 竞赛中,开辟了一条与主流硅谷范式截然不同的、以「交互」为核心的创新路径。要理解这场变革的重要性,最好的参照系就是 Sora。

Sora 代表了当前 AI「生成能力」的巅峰。它像一位无所不能的电影导演,目标是利用磅礴的算力,一次性地创作出一段逻辑自洽、细节完美的影像「作品」。它的价值在于「创世」,在于从无到有地生成一个静态的、可供观赏的世界。然而,一旦生成结束,这个世界便凝固了,它无法对外界的刺激做出任何新的反应。Sora 的交互是单向的,终点是作品的完成。

而「星云」所代表的,是 AI「表达能力」的一次关键跃迁。它更像一个优秀的即兴戏剧演员,它的价值不在于一次性的完美演出,而在于对台下观众每一个提问、每一次打断都能做出即时的、恰当的、带有情绪的「回应」。它的世界是动态的、持续演进的,并且永远对新的输入保持开放。

这种以「应用」和「普及」为导向的创新范式,能够率先在中国结出果实,并非偶然。它深深植根于中国独特的市场、供应链和商业化环境。

首先,是中国市场「商业闭环」的执念。当海外的大模型公司仍在算法和参数的「军备竞赛」中不断推高 AI 的理论上限时,中国的 AI 从业者们早已面临一个更直接的问题:如何让技术落地,如何赚钱。在这里,一个纯粹的「AI 大脑」是不够的,它必须找到一个可以依附的「身体」——无论是屏幕、终端还是机器人——才能在政府服务、教育、零售、制造等具体的行业场景中创造价值。这种强烈的商业化需求,迫使中国的创新者们必须将目光从云端拉回地面,思考如何为 AI 构建与物理世界连接的桥梁。

其次,是中国全球最完备的智能硬件生态。当 AI 需要「身体」时,中国恰恰是这个星球上最强大的「身体制造商」。无论是机器人本体、各类交互屏幕,还是 AR/VR 设备,其背后的供应链、制造能力和成本工程能力几乎无可匹敌。将 3D 数字人的运行门槛降至「百元级芯片」,这一壮举正是依托于此。如果说硅谷定义了「AI 大脑」的研发范式,那么中国则掌握了制造「AI 身体」所需的一切要素,从设计到量产,形成了一个天然的硬件试验场。

在这样的大背景下,魔珐科技的崛起,便成为了这一宏大叙事的最佳缩影。它的独特优势,恰恰完美契合了中国市场的需求和禀赋。

魔珐的护城河,并不仅仅在于其创始人柴金祥教授团队深厚的学术背景——他们是全球最早用 AI 算法生成 3D 动画的先行者,保证了技术的原创性与深度。更关键的,在于其过去多年作为3D 数字人内容服务商所积累的海量、高质量的专有数据

具身智能的核心燃料,不仅是算法,更是海量的 3D 视觉与交互数据。在长期为游戏、影视及各类企业提供服务的过程中,魔珐并非在象牙塔中做研究,而是在解决一个个真实商业问题的同时,积累了中国市场独有的、无可替代的 3D 素材与真实交互数据。当竞争对手还在寻找数据「养料」时,魔珐早已拥有了一片富饶的「黑土地」。

可以说,「星云」的诞生,正是顶尖技术理论,在中国这片独特的「商业需求+硬件生态+数据土壤」中,找到的最佳落点。它既有来自全球前沿的「AI 大脑」,又在中国市场中,为自己锻造出了一副可以被低成本、大规模复制的「AI 身体」。

当中国企业率先让 AI 走出文本框,世界或许将重新定义「交互」。

「星云」的意义,不只是为 AI 提供了一张可以说话的脸,而是让每一块冰冷的屏幕,都有了获得生命的可能性。它让「智能」第一次变得有温度、有表情,不再是后台一串冰冷的代码,而是前台一个温暖的伙伴。

这预示着,「人机关系」正在从过去纯粹的功能性合作,开始走向更深层次的情感共处。而这场伟大的变革,或许才刚刚拉开序幕。

*头图来源:魔珐科技

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

AI 正在重塑人机交互的每一个维度,大模型的发展带来了新的交互方式,也带来了新的硬件机会。手机还会是用户最重要的个人计算设备吗?手机之外的硬件有怎样的机会?AI 时代会诞生新的安卓系统吗?

10 月 30 日(周四)20:00,极客公园视频号直播间,极客公园创始人 & 总裁张鹏将与光帆科技创始人董红光展开一场关于「AI 时代的交互与硬件」的深入对话。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
内蒙古黑老大易连峰,酒店调戏游玩女子,不料惹到大人物就此覆灭

内蒙古黑老大易连峰,酒店调戏游玩女子,不料惹到大人物就此覆灭

青青会讲故事
2024-10-10 17:09:30
曹操墓前堆成山的布洛芬,是这届年轻人最野的"历史梗"

曹操墓前堆成山的布洛芬,是这届年轻人最野的"历史梗"

小豫讲故事
2025-10-27 11:50:08
上海老人地铁强行坐女生腿上,他还不知道自己捅了多大篓子!

上海老人地铁强行坐女生腿上,他还不知道自己捅了多大篓子!

娱乐圈的笔娱君
2025-11-02 14:40:50
三亚海滩“长满”了俄罗斯人!网友调侃:我在这里反而成了“老外”

三亚海滩“长满”了俄罗斯人!网友调侃:我在这里反而成了“老外”

封面新闻
2025-11-02 12:57:02
男单决赛对阵!奥运亚军4:1晋级决赛,战胜过王楚钦,与日本争冠

男单决赛对阵!奥运亚军4:1晋级决赛,战胜过王楚钦,与日本争冠

国乒二三事
2025-11-02 21:29:16
许世友正喝酒来电话,问:我是上将许世友你是谁?答:小兵周恩来

许世友正喝酒来电话,问:我是上将许世友你是谁?答:小兵周恩来

良工说
2025-09-04 00:53:34
蒋万安手腕够绝:上午与郑丽文握手发通稿,下午便端坐其对面

蒋万安手腕够绝:上午与郑丽文握手发通稿,下午便端坐其对面

蛙斯基娱乐中
2025-10-27 00:27:29
詹姆斯祝贺!道奇4-3蓝鸟夺世界大赛第9冠 日本山本由伸MVP

詹姆斯祝贺!道奇4-3蓝鸟夺世界大赛第9冠 日本山本由伸MVP

醉卧浮生
2025-11-02 13:17:10
世体:恩德里克本赛季首次为皇马出战,但仍将在冬窗租借离队

世体:恩德里克本赛季首次为皇马出战,但仍将在冬窗租借离队

懂球帝
2025-11-02 22:55:03
北京金鼎轩一根油条卖39元?工作人员称“个头大够两人吃”,市监局回应

北京金鼎轩一根油条卖39元?工作人员称“个头大够两人吃”,市监局回应

大峰
2025-11-02 10:27:19
饶漱石在华野没有职务,淮海战前,为何被称作“华野全军政委”?

饶漱石在华野没有职务,淮海战前,为何被称作“华野全军政委”?

春秋砚
2025-11-02 18:00:03
耳光大赛中被KO+陷入昏迷!中国武术大师颧骨骨裂缝5针 还要打5场

耳光大赛中被KO+陷入昏迷!中国武术大师颧骨骨裂缝5针 还要打5场

风过乡
2025-11-02 09:37:26
“会打扮”和“不会打扮”的地铁奶奶:差别有多大?看对比就知道

“会打扮”和“不会打扮”的地铁奶奶:差别有多大?看对比就知道

白宸侃片
2025-10-27 00:26:08
美国人:中国在空间站造出稀有金属,才解决了六代机航发大难题?

美国人:中国在空间站造出稀有金属,才解决了六代机航发大难题?

Thurman在昆明
2025-11-02 01:10:37
看哭了!舅舅18岁开始抚养三个外甥,九年时间感动全网!

看哭了!舅舅18岁开始抚养三个外甥,九年时间感动全网!

晓踏就是我
2025-11-02 16:55:18
何祚庥:我对核聚变研究的质疑,就是向杨振宁先生这样的先贤学习

何祚庥:我对核聚变研究的质疑,就是向杨振宁先生这样的先贤学习

怀疑探索者
2025-11-02 21:29:01
又一则励志新闻翻车了!

又一则励志新闻翻车了!

清书先生
2025-10-21 15:51:40
一字之差,从总指挥长到指挥长,我国载人航天发射发生了哪些变化

一字之差,从总指挥长到指挥长,我国载人航天发射发生了哪些变化

Thurman在昆明
2025-11-01 14:44:54
俄乌冲突迎来大结局?最大罪人已浮现,泽连斯基终于等来美方信号

俄乌冲突迎来大结局?最大罪人已浮现,泽连斯基终于等来美方信号

健身狂人
2025-10-31 14:55:35
市监局办公室副主任周日值班当天猝死不予认定工伤,家属起诉人社局、县政府 法院判了

市监局办公室副主任周日值班当天猝死不予认定工伤,家属起诉人社局、县政府 法院判了

红星新闻
2025-10-07 21:50:15
2025-11-03 00:27:00
极客公园
极客公园
让最棒的创新成为头条
11579文章数 78705关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

和章泽天出席会议被抓拍 刘强东发文调侃称"没了自信"

头条要闻

和章泽天出席会议被抓拍 刘强东发文调侃称"没了自信"

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

教育
家居
健康
公开课
军事航空

教育要闻

当海岛遇上诗教,不妨做一个诗歌岛上的原住民 | 与你共读

家居要闻

吸睛艺术 富有传奇色彩

核磁VS肌骨超声,谁更胜一筹?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版