网易首页 > 网易号 > 正文 申请入驻

华为天才少年创业,全球首个虚实融合的实时交互视频模型来了

0
分享至




编辑|Youli

还记得童年的那个愿望吗?

随着《数码宝贝》进化曲的响起,屏幕前的你我或许都曾幻想过:要是那只从数码蛋中破壳而出的滚球兽,真的可以从电视屏幕那端跳出来,就好了。



彼时,我们只能将这种天马行空的「美梦」寄希望于「次元裂缝」的开启。再后来,技术增强现实(AR)技术曾一度带来了希望,但几经潮起潮落,结果仍停留在「预先制作的内容叠加」层面,数字角色无法真正感知环境。

而现在已经 2026 年了,生成式 AI、实时渲染、端侧算力、感知模型同时成熟,尤其是 Sora 展现出的前所未有的世界模拟能力,让大家意识到,原来虚拟内容不再需要完全预制,可以被实时生成、驱动,并具有物理合理性。技术的狂奔第一次让曾经的「中二梦」,具备了成为现实的可能:你真的可以从屏幕中「召唤」出一只滚球兽。



是不是很神奇?手机镜头对准桌面,选取一张滚球兽照片,下一秒,一只滚球兽就「脱屏而出」,出现在桌面上,四处张望。你伸出手,它刚开始会有点警惕,之后就亲昵地蹭你的手心,你轻轻一捏,它会给出Q弹的物理反馈,而当你把手摊开,它甚至可以被你「托」在掌心之中,就好像,这是一只「活」的滚球兽……通过一个手机摄像头,虚拟角色第一次实现了与现实世界的融合。

这就是由初创公司 Xmax AI 推出的首个虚实融合的实时交互视频模型 X1,没有复杂的 Prompt,不需要漫长的渲染等待,只需要手势进行交互,就可以让虚拟世界与现实相连,在镜头中令「幻想」成真,让用户体验到实时交互的心流体验。



目前,Xmax AI 已通过一款技术演示型应用 X-cam(目前开放 testflight 下载),将 X1 的能力开放给部分用户体验,感兴趣的朋友可以通过文末提到的方式获取邀请码,近距离体验一下技术的边界。

「虚实融合 + 实时交互」,视频生成进入「人人可玩」时代

过去这一年多,AI 视频生成领域可以说是遍地开花、神仙打架。

数据显示,2024 年全球 AI 视频生成市场规模已达 6.148 亿美元,预计到 2032 年将飙升至 25.629 亿美元。在市场的强需求推动下,从 Sora 到 Runway,各路玩家都在沿着「更强的生成能力」方向极力狂奔:卷画质、卷时长、卷分辨率……

仔细看下来,整个赛道,大多数玩家选择的技术路线依然是文生视频,致力于面向专业领域的创作者 —— 影视、广告、内容工业等,打造更强大、更完善的生产力工具。

可不得不承认,在当前的「视频模型军备竞赛」中,普通用户似乎没有参与到狂欢中,感受就是「热闹是他们的,我什么也没有。」

原因很现实,首先是上手难,当然,很多视频生成工具操作起来已经很便捷,可很多时候写出精准的 Prompt 依然像是在编写代码,而且等待时间长,生成时间动辄从数秒到数分钟,再到数十分钟不等,缺乏即时反馈的快感。而漫长的等待后,得到的也不过是一段存在于屏幕里的「只能看、不能碰」,与当下日常生活毫无关系的虚拟视频。

Xmax AI 敏锐地捕捉到了这一点:AI 视频生成要想真正走入大众,就不能仅停留在「工具」阶段,要容易上手,要让大众有参与感,能够「玩」起来。



可这也就意味着,在基础视频生成能力之外,行业还需要跨越两座「大山」:一是降低交互门槛,改变传统的文生视频工具需要专业想法和 Prompt 撰写能力的方式;二是要与现实世界有更多结合,人是生活在现实中,文生视频模型一定程度上确实满足了完全虚拟化的想象,可人对现实的幻想并没有被满足。

基于此,Xmax AI 走了一条截然不同的路线:推出首个虚实融合的实时交互视频模型 X1,让视频生成告别键盘输入,回归人类最本能的手势与触控,仅需要一个手机摄像头,就能打破虚拟与现实的「壁」。

具体来看,基于 X1 强大的端侧实时生成能力,Xmax AI 将这一技术落地为四大核心玩法:次元互动、世界滤镜、触控动图、表情捕手…… 每一台手机似乎都变成了连接虚实的「魔法棒」。

次元互动:这就是前面那个视频所展示的能力,手机摄像头拍摄现实场景,任意上传一张角色参考图,就可以将该角色在镜头中「召唤」出来。

比如下面这个小兔子,你可以在镜头前伸出手与它互动,捏一捏、拍一拍,甚至将把它托到手上。视频中可以看到,当抚摸到兔子眼睛旁位置时,它会跟随人的动作转头,甚至可以看到绒毛因为触碰而遮盖眼睛的情况,没有延迟,因为它所有的物理反应都是 X1 模型实时生成的,所以,看起来就好像真的在抚摸一个真实存在的生命体。



不仅仅是动漫角色,可以说是任何自己喜欢的纸片人、宠物、毛绒玩具,都可以在镜头中「活」过来。

世界滤镜:任意上传一张风格参考图,就可以将手机摄像头拍摄的画面实时转换,变成指定的风格,例如梵高画风、乐高画风等。可以用于渲染环境,也可以用于渲染人物,甚至可以用于渲染屏幕内容,像是正在玩的游戏画面。

直接来看一个例子,下面视频中的小姐姐通过选取不同风格的参考图,让自己「化身」为图片所示风格的人物,可以是经典动漫中的二次元虚拟形象,也可以是乐高积木风格。而且,当小姐姐做出挥手或是摇头动作时,视频中「变身」后的人物或形象会实时跟着做出相应的动作。



触控动图:让静态照片「活」过来、动起来,不再需要复杂软件。对于任意一张照片,都可以在触摸屏上对照片中的角色进行拖拽控制,让它实时运动起来。

比如下面视频中动漫风格的小兔子,左右拖动它的耳朵,它就开始左右摇头;上下挥动,它就做出被拍脑袋的动作;拖动嘴角,它会露出微笑。「实物」也可以,给自家猫咪狗子拍张照上传,就可以让它挥手、抡拳,跳起舞;眨眼、吐舌、卖起萌。甚至是「恶搞」的,将刘海剪成整齐模样的马,也在镜头下开始摇头晃脑…… 就像在操控提线木偶,轻松赋予静止图像以生命力。



表情捕手:将相机镜头对准任意的人或物体,选择一个「大拇指」或「怒气冲冲」的 Emoji,AI 就会实时「捕捉」对方的特征,实时生成一个神态精准、魔性十足的动态表情包。这简直就是「社交神器」,以后聚会也不用担心冷场,随时就可以拿出来玩一下。



强大能力背后的技术挑战与实现

是不是很好玩,即便是对技术没什么了解,也可以轻松上手。但在业内人士看来,这不仅是产品的创新,更是工程能力的「暴力美学」。

「有趣体验背后,是极高的技术挑战。」Xmax AI 向机器之心透露,要实现上述这些效果,必须同时解决当前 AI 行业的三大痛点:

首先是极致实时,从上面的视频中也可以看出来,视频中的人物或是形象的反应随时能够跟着手势变,给用户产生一种「我在和它互动」的感觉,而这就要求延迟必须控制在毫秒级,可当前市面上的大多数所谓「实时」模型响应往往需要数秒,难以满足 Xmax AI 想要在交互场景中呈现的效果需求。



其次是意图理解,Xmax AI 的想法是希望交互方式多种多样且自然,对普通人来说门槛足够低,这就要求模型做到能够自动理解人的意图,并实时生成精准的反馈结果。可当前大多数模型都是文生视频、图生视频,无法实现这些手势交互效果。比如,对于模型来说,当人做出「捏」这个动作时,要读懂其中的意图,可要比读懂一段文字难得多。

另外,还存在数据稀缺的问题,对于整个 AI 行业来说,数据都足够重要却又极致稀缺,更何况是相对小众的「虚实融合交互数据」,生产成本高,构造难度极大。但现实又是,想要实现好的虚实融合的效果就必须基于大量且专业的高质量训练数据。

这些挑战一度让 Xmax AI 犯了难。

但需要注意的是,Xmax AI 是一支既懂底层算法,又懂工程化落地,还拥有敏锐产品嗅觉的「特种部队」。

创始人史佳欣,出身于华为「天才少年」计划,是一位典型的技术极客。联合创始人梁宸,现任港科大(广州)助理教授、博导。联合创始人翁跃庭,是一位「六边形战士」型的全栈工程师。而公司核心技术团队则都是来自清华大学 KEG 实验室和 HCI 实验室的人才,是国内大模型领域和人机交互领域的顶尖力量。

不仅如此,团队核心成员也大都在字节、快手、华为、阿里等头部 AI 大厂历练过,有着丰富的技术落地实践经验。

因此,面对上述这些挑战,Xmax AI 交出了一份「硬核」的技术答卷。

针对极致实时性需求,Xmax AI 进行架构创新,提出了端到端的流式重渲染视频模型架构,实现了帧级别的自回归 DiT(Diffusion Transformer),并通过多阶段的蒸馏压缩和对抗训练,百倍提升了每一帧画面的扩散采样速度。不仅将延迟压低至毫秒级,更是通过自研的「循环回归架构」打破了时长的限制,支持无限时长的连续生成。

针对模型对意图理解的高要求,Xmax.AI 则构建了统一的交互模型架构,让模型既能理解摄像头透视下的空间三维关系,也能理解屏幕触控下的平面二维操作,从而对于用户的各类交互行为,模型都能够实现精准的意图识别。

而针对「数据荒漠」难题,Xmax AI 则搭建了虚实融合数据的合成管线,利用半自动化方式,低成本、批量化地生成了高质量的交互训练数据,构建了难以复刻的行业壁垒。

体验了这么多玩法,相信大家已经隐约感知到 Xmax AI 想做的事情了。如果说 Sora 代表的是一条极致强化生成能力的路线,让 AI 学会拍电影、构图、运镜、叙事,那么 X1 则是希望 AI 能够陪你玩,随时出现在你周围的生活场景中。

从这个角度来看,对于 Xmax AI 团队而言,X1 模型仅仅是一个开始。

其实从前面 X1 的模型能力展现上也可以看出来,Xmax AI 不是想「再造」一个专业的视频创作工具,开发一款 App,更是在试图搭建下一代内容交互引擎,重新定义用户与 AI 生成内容之间的个性化交互方式。

在他们的愿景里,这个新时代中,那些曾经只能存在于影视作品和虚拟世界中的角色,不管是数码宝贝,还是银翼杀手式的仿生生命体,都可以走进现实,成为虚实融合的「数字生命体」,进入家庭,成为用户的虚拟陪伴、虚拟宠物等。

与此同时,「万物可交互」也不再只是一个空想,不管是刷短视频、看直播,还是视频通话、线上会议,都可以实时改变视觉形态,一边看一边玩,带来全新的个性化体验;社交互动变得更立体、更有趣,摄像头化身「精灵球」,随时随地「捕捉」一个好友过来,对 TA 进行打扮……

也就是说,Xmax AI 所做的,是通过 AI 将「幻想」拉得更近,近到可以触碰、互动、分享,真正融入人们的日常生活。

正如 Xmax AI Slogan 所言,Play the World through AI(用 AI 玩转世界),让世界触手可「玩」。

最后,感兴趣的朋友可以通过 testflight 邀请链接下载 APP,下载后在登录界面点击申请邀请码,也可以通过 Xmax AI 官网来提前体验、感受这一切。这一次,你可以亲自推开那扇通往虚实融合世界的「门」。

  • testflight 邀请链接:https://testflight.apple.com/join/8sWgKZeQ
  • Xmax AI官网链接:https://xmax.ai/

文中视频链接:https://mp.weixin.qq.com/s/xnaOGvC5_EVYxsJYxVE_xQ

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈登续约倒计时!骑士兜售斯特鲁斯+施罗德 湖人等队想挖走韦德

哈登续约倒计时!骑士兜售斯特鲁斯+施罗德 湖人等队想挖走韦德

罗说NBA
2026-06-29 05:55:51
《浪姐7》收官:4人名利双收,3人翻红,2人升咖,1人遗憾

《浪姐7》收官:4人名利双收,3人翻红,2人升咖,1人遗憾

原梦叁生
2026-06-29 03:36:13
整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

史行途
2026-06-27 15:14:20
2026世界杯加时规则:无金球,30分钟后点球决胜

2026世界杯加时规则:无金球,30分钟后点球决胜

竞技风云录
2026-06-29 00:18:04
徐静雨大胆预判:詹姆斯大概率回归骑士,双詹合体名场面或将上演

徐静雨大胆预判:詹姆斯大概率回归骑士,双詹合体名场面或将上演

小徐讲八卦
2026-06-29 08:19:05
特朗普突然情绪失控,当着众人的面大声咆哮,中国是最后一根稻草

特朗普突然情绪失控,当着众人的面大声咆哮,中国是最后一根稻草

击你的心灵深处
2026-06-29 06:31:30
李玟离世三年后,主诊医生被起诉,死因曝光,家人:终于等到正义

李玟离世三年后,主诊医生被起诉,死因曝光,家人:终于等到正义

余鴡搞笑段子
2026-06-28 17:42:46
申花4-1、西海岸3-1!中超积分榜:第4到第6同分,申花力压上港

申花4-1、西海岸3-1!中超积分榜:第4到第6同分,申花力压上港

中超伪球迷
2026-06-28 21:05:19
CPTPP准备接收菲律宾,中国更早申请加入,却仍被卡在第一步之外

CPTPP准备接收菲律宾,中国更早申请加入,却仍被卡在第一步之外

牛锅巴小钒
2026-06-28 15:36:45
00后相亲节目全网催更,不是因为甜,是因为毒

00后相亲节目全网催更,不是因为甜,是因为毒

酷玩实验室
2026-06-27 09:30:26
上海一网约车司机与陌生乘客相谈甚欢、互加微信,还转给对方15000元,结果被拉黑……

上海一网约车司机与陌生乘客相谈甚欢、互加微信,还转给对方15000元,结果被拉黑……

新浪财经
2026-06-28 22:16:24
大聪明!男子在上海街头闯祸,逃回家后做了个动作!结果和老婆双双被带走……刑拘!

大聪明!男子在上海街头闯祸,逃回家后做了个动作!结果和老婆双双被带走……刑拘!

环球网资讯
2026-06-28 18:05:36
厄瓜多尔28岁总统夫人,年轻貌美身材高挑,勾搭总统婚内出轨上位

厄瓜多尔28岁总统夫人,年轻貌美身材高挑,勾搭总统婚内出轨上位

流史岁月
2026-06-28 20:00:06
不再嘴软!波兰外长当众宣判战局:俄军主动权彻底没了

不再嘴软!波兰外长当众宣判战局:俄军主动权彻底没了

老马拉车莫少装
2026-06-27 22:58:00
江苏省委领导班子有调整!直辖市市委常委刘尚进、马震,有新职务!

江苏省委领导班子有调整!直辖市市委常委刘尚进、马震,有新职务!

小陆搞笑日常
2026-06-29 07:51:01
“A妹”晒自拍却不慎走光,一张照片全网疯传,3.6亿粉丝看光光

“A妹”晒自拍却不慎走光,一张照片全网疯传,3.6亿粉丝看光光

星野娱乐天地
2026-06-26 18:52:42
留在美国无望了!国土安全部长:免费机票+2100美元现金,现在就离开

留在美国无望了!国土安全部长:免费机票+2100美元现金,现在就离开

大洛杉矶LA
2026-06-29 06:35:09
刘涛去上海出差,想着好久没见孙俪,发微信约晚饭。孙俪回得很快:见面可以,只能中午,四点前必须散。

刘涛去上海出差,想着好久没见孙俪,发微信约晚饭。孙俪回得很快:见面可以,只能中午,四点前必须散。

新浪财经
2026-06-28 02:18:47
演员王安宇登报声明:本人王安宇,不慎遗失中国传媒大学本科毕业证书和学位证书,现声明作废

演员王安宇登报声明:本人王安宇,不慎遗失中国传媒大学本科毕业证书和学位证书,现声明作废

大象新闻
2026-06-27 16:50:09
闹大了!90后80后70后老登免费染黄毛,一理发店红色横幅登上热搜

闹大了!90后80后70后老登免费染黄毛,一理发店红色横幅登上热搜

火山詩话
2026-06-28 12:06:02
2026-06-29 09:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13379文章数 142682关注度
往期回顾 全部

科技要闻

OpenAI推迟上市,那“Kimi们”呢?

头条要闻

轨道被"晒伤" 德国莱比锡有轨电车停运

头条要闻

轨道被"晒伤" 德国莱比锡有轨电车停运

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

OpenAI推迟上市,那“Kimi们”呢?

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

教育
亲子
时尚
本地
军事航空

教育要闻

河南高考多少分能上清北?多少分上985?600分、500分如何报志愿

亲子要闻

她知道自己多快乐吗

夏天裤子别总穿紧身的,试试这几款阔腿裤,百搭舒适又显瘦

本地新闻

世界杯球迷节:比球赛更好玩的派对

军事要闻

特朗普又发文威胁:伊朗将不复存在

无障碍浏览 进入关怀版