网易首页 > 网易号 > 正文 申请入驻

华为天才少年创业,全球首个虚实融合的实时交互视频模型来了

0
分享至




编辑|Youli

还记得童年的那个愿望吗?

随着《数码宝贝》进化曲的响起,屏幕前的你我或许都曾幻想过:要是那只从数码蛋中破壳而出的滚球兽,真的可以从电视屏幕那端跳出来,就好了。



彼时,我们只能将这种天马行空的「美梦」寄希望于「次元裂缝」的开启。再后来,技术增强现实(AR)技术曾一度带来了希望,但几经潮起潮落,结果仍停留在「预先制作的内容叠加」层面,数字角色无法真正感知环境。

而现在已经 2026 年了,生成式 AI、实时渲染、端侧算力、感知模型同时成熟,尤其是 Sora 展现出的前所未有的世界模拟能力,让大家意识到,原来虚拟内容不再需要完全预制,可以被实时生成、驱动,并具有物理合理性。技术的狂奔第一次让曾经的「中二梦」,具备了成为现实的可能:你真的可以从屏幕中「召唤」出一只滚球兽。



是不是很神奇?手机镜头对准桌面,选取一张滚球兽照片,下一秒,一只滚球兽就「脱屏而出」,出现在桌面上,四处张望。你伸出手,它刚开始会有点警惕,之后就亲昵地蹭你的手心,你轻轻一捏,它会给出Q弹的物理反馈,而当你把手摊开,它甚至可以被你「托」在掌心之中,就好像,这是一只「活」的滚球兽……通过一个手机摄像头,虚拟角色第一次实现了与现实世界的融合。

这就是由初创公司 Xmax AI 推出的首个虚实融合的实时交互视频模型 X1,没有复杂的 Prompt,不需要漫长的渲染等待,只需要手势进行交互,就可以让虚拟世界与现实相连,在镜头中令「幻想」成真,让用户体验到实时交互的心流体验。



目前,Xmax AI 已通过一款技术演示型应用 X-cam(目前开放 testflight 下载),将 X1 的能力开放给部分用户体验,感兴趣的朋友可以通过文末提到的方式获取邀请码,近距离体验一下技术的边界。

「虚实融合 + 实时交互」,视频生成进入「人人可玩」时代

过去这一年多,AI 视频生成领域可以说是遍地开花、神仙打架。

数据显示,2024 年全球 AI 视频生成市场规模已达 6.148 亿美元,预计到 2032 年将飙升至 25.629 亿美元。在市场的强需求推动下,从 Sora 到 Runway,各路玩家都在沿着「更强的生成能力」方向极力狂奔:卷画质、卷时长、卷分辨率……

仔细看下来,整个赛道,大多数玩家选择的技术路线依然是文生视频,致力于面向专业领域的创作者 —— 影视、广告、内容工业等,打造更强大、更完善的生产力工具。

可不得不承认,在当前的「视频模型军备竞赛」中,普通用户似乎没有参与到狂欢中,感受就是「热闹是他们的,我什么也没有。」

原因很现实,首先是上手难,当然,很多视频生成工具操作起来已经很便捷,可很多时候写出精准的 Prompt 依然像是在编写代码,而且等待时间长,生成时间动辄从数秒到数分钟,再到数十分钟不等,缺乏即时反馈的快感。而漫长的等待后,得到的也不过是一段存在于屏幕里的「只能看、不能碰」,与当下日常生活毫无关系的虚拟视频。

Xmax AI 敏锐地捕捉到了这一点:AI 视频生成要想真正走入大众,就不能仅停留在「工具」阶段,要容易上手,要让大众有参与感,能够「玩」起来。



可这也就意味着,在基础视频生成能力之外,行业还需要跨越两座「大山」:一是降低交互门槛,改变传统的文生视频工具需要专业想法和 Prompt 撰写能力的方式;二是要与现实世界有更多结合,人是生活在现实中,文生视频模型一定程度上确实满足了完全虚拟化的想象,可人对现实的幻想并没有被满足。

基于此,Xmax AI 走了一条截然不同的路线:推出首个虚实融合的实时交互视频模型 X1,让视频生成告别键盘输入,回归人类最本能的手势与触控,仅需要一个手机摄像头,就能打破虚拟与现实的「壁」。

具体来看,基于 X1 强大的端侧实时生成能力,Xmax AI 将这一技术落地为四大核心玩法:次元互动、世界滤镜、触控动图、表情捕手…… 每一台手机似乎都变成了连接虚实的「魔法棒」。

次元互动:这就是前面那个视频所展示的能力,手机摄像头拍摄现实场景,任意上传一张角色参考图,就可以将该角色在镜头中「召唤」出来。

比如下面这个小兔子,你可以在镜头前伸出手与它互动,捏一捏、拍一拍,甚至将把它托到手上。视频中可以看到,当抚摸到兔子眼睛旁位置时,它会跟随人的动作转头,甚至可以看到绒毛因为触碰而遮盖眼睛的情况,没有延迟,因为它所有的物理反应都是 X1 模型实时生成的,所以,看起来就好像真的在抚摸一个真实存在的生命体。



不仅仅是动漫角色,可以说是任何自己喜欢的纸片人、宠物、毛绒玩具,都可以在镜头中「活」过来。

世界滤镜:任意上传一张风格参考图,就可以将手机摄像头拍摄的画面实时转换,变成指定的风格,例如梵高画风、乐高画风等。可以用于渲染环境,也可以用于渲染人物,甚至可以用于渲染屏幕内容,像是正在玩的游戏画面。

直接来看一个例子,下面视频中的小姐姐通过选取不同风格的参考图,让自己「化身」为图片所示风格的人物,可以是经典动漫中的二次元虚拟形象,也可以是乐高积木风格。而且,当小姐姐做出挥手或是摇头动作时,视频中「变身」后的人物或形象会实时跟着做出相应的动作。



触控动图:让静态照片「活」过来、动起来,不再需要复杂软件。对于任意一张照片,都可以在触摸屏上对照片中的角色进行拖拽控制,让它实时运动起来。

比如下面视频中动漫风格的小兔子,左右拖动它的耳朵,它就开始左右摇头;上下挥动,它就做出被拍脑袋的动作;拖动嘴角,它会露出微笑。「实物」也可以,给自家猫咪狗子拍张照上传,就可以让它挥手、抡拳,跳起舞;眨眼、吐舌、卖起萌。甚至是「恶搞」的,将刘海剪成整齐模样的马,也在镜头下开始摇头晃脑…… 就像在操控提线木偶,轻松赋予静止图像以生命力。



表情捕手:将相机镜头对准任意的人或物体,选择一个「大拇指」或「怒气冲冲」的 Emoji,AI 就会实时「捕捉」对方的特征,实时生成一个神态精准、魔性十足的动态表情包。这简直就是「社交神器」,以后聚会也不用担心冷场,随时就可以拿出来玩一下。



强大能力背后的技术挑战与实现

是不是很好玩,即便是对技术没什么了解,也可以轻松上手。但在业内人士看来,这不仅是产品的创新,更是工程能力的「暴力美学」。

「有趣体验背后,是极高的技术挑战。」Xmax AI 向机器之心透露,要实现上述这些效果,必须同时解决当前 AI 行业的三大痛点:

首先是极致实时,从上面的视频中也可以看出来,视频中的人物或是形象的反应随时能够跟着手势变,给用户产生一种「我在和它互动」的感觉,而这就要求延迟必须控制在毫秒级,可当前市面上的大多数所谓「实时」模型响应往往需要数秒,难以满足 Xmax AI 想要在交互场景中呈现的效果需求。



其次是意图理解,Xmax AI 的想法是希望交互方式多种多样且自然,对普通人来说门槛足够低,这就要求模型做到能够自动理解人的意图,并实时生成精准的反馈结果。可当前大多数模型都是文生视频、图生视频,无法实现这些手势交互效果。比如,对于模型来说,当人做出「捏」这个动作时,要读懂其中的意图,可要比读懂一段文字难得多。

另外,还存在数据稀缺的问题,对于整个 AI 行业来说,数据都足够重要却又极致稀缺,更何况是相对小众的「虚实融合交互数据」,生产成本高,构造难度极大。但现实又是,想要实现好的虚实融合的效果就必须基于大量且专业的高质量训练数据。

这些挑战一度让 Xmax AI 犯了难。

但需要注意的是,Xmax AI 是一支既懂底层算法,又懂工程化落地,还拥有敏锐产品嗅觉的「特种部队」。

创始人史佳欣,出身于华为「天才少年」计划,是一位典型的技术极客。联合创始人梁宸,现任港科大(广州)助理教授、博导。联合创始人翁跃庭,是一位「六边形战士」型的全栈工程师。而公司核心技术团队则都是来自清华大学 KEG 实验室和 HCI 实验室的人才,是国内大模型领域和人机交互领域的顶尖力量。

不仅如此,团队核心成员也大都在字节、快手、华为、阿里等头部 AI 大厂历练过,有着丰富的技术落地实践经验。

因此,面对上述这些挑战,Xmax AI 交出了一份「硬核」的技术答卷。

针对极致实时性需求,Xmax AI 进行架构创新,提出了端到端的流式重渲染视频模型架构,实现了帧级别的自回归 DiT(Diffusion Transformer),并通过多阶段的蒸馏压缩和对抗训练,百倍提升了每一帧画面的扩散采样速度。不仅将延迟压低至毫秒级,更是通过自研的「循环回归架构」打破了时长的限制,支持无限时长的连续生成。

针对模型对意图理解的高要求,Xmax.AI 则构建了统一的交互模型架构,让模型既能理解摄像头透视下的空间三维关系,也能理解屏幕触控下的平面二维操作,从而对于用户的各类交互行为,模型都能够实现精准的意图识别。

而针对「数据荒漠」难题,Xmax AI 则搭建了虚实融合数据的合成管线,利用半自动化方式,低成本、批量化地生成了高质量的交互训练数据,构建了难以复刻的行业壁垒。

体验了这么多玩法,相信大家已经隐约感知到 Xmax AI 想做的事情了。如果说 Sora 代表的是一条极致强化生成能力的路线,让 AI 学会拍电影、构图、运镜、叙事,那么 X1 则是希望 AI 能够陪你玩,随时出现在你周围的生活场景中。

从这个角度来看,对于 Xmax AI 团队而言,X1 模型仅仅是一个开始。

其实从前面 X1 的模型能力展现上也可以看出来,Xmax AI 不是想「再造」一个专业的视频创作工具,开发一款 App,更是在试图搭建下一代内容交互引擎,重新定义用户与 AI 生成内容之间的个性化交互方式。

在他们的愿景里,这个新时代中,那些曾经只能存在于影视作品和虚拟世界中的角色,不管是数码宝贝,还是银翼杀手式的仿生生命体,都可以走进现实,成为虚实融合的「数字生命体」,进入家庭,成为用户的虚拟陪伴、虚拟宠物等。

与此同时,「万物可交互」也不再只是一个空想,不管是刷短视频、看直播,还是视频通话、线上会议,都可以实时改变视觉形态,一边看一边玩,带来全新的个性化体验;社交互动变得更立体、更有趣,摄像头化身「精灵球」,随时随地「捕捉」一个好友过来,对 TA 进行打扮……

也就是说,Xmax AI 所做的,是通过 AI 将「幻想」拉得更近,近到可以触碰、互动、分享,真正融入人们的日常生活。

正如 Xmax AI Slogan 所言,Play the World through AI(用 AI 玩转世界),让世界触手可「玩」。

最后,感兴趣的朋友可以通过 testflight 邀请链接下载 APP,下载后在登录界面点击申请邀请码,也可以通过 Xmax AI 官网来提前体验、感受这一切。这一次,你可以亲自推开那扇通往虚实融合世界的「门」。

  • testflight 邀请链接:https://testflight.apple.com/join/8sWgKZeQ
  • Xmax AI官网链接:https://xmax.ai/

文中视频链接:https://mp.weixin.qq.com/s/xnaOGvC5_EVYxsJYxVE_xQ

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
收评|充满爱芯!A股调整!这个方向又爆了!

收评|充满爱芯!A股调整!这个方向又爆了!

龙行天下虎
2026-05-12 15:12:41
估价8万!带有麒麟号的100元纸币,谁有就发了!

估价8万!带有麒麟号的100元纸币,谁有就发了!

富哥爱收藏
2026-05-10 14:09:59
张艺谋新剧《主角》爆火,张嘉益刘浩存表现平平,37岁女配却出圈

张艺谋新剧《主角》爆火,张嘉益刘浩存表现平平,37岁女配却出圈

冷紫葉
2026-05-11 18:12:37
短剧女神郭宇欣私下照曝光!素颜图美到犯规,和镜头里反差超大。

短剧女神郭宇欣私下照曝光!素颜图美到犯规,和镜头里反差超大。

手工制作阿歼
2026-05-12 15:44:58
盐城盒马新辰里店被曝熟食区苍蝇乱飞,食品卫生安全谁来把关?

盐城盒马新辰里店被曝熟食区苍蝇乱飞,食品卫生安全谁来把关?

俯瞰江苏
2026-05-12 15:41:08
雷霆4比0湖人:如果这是勒布朗在洛杉矶的最后

雷霆4比0湖人:如果这是勒布朗在洛杉矶的最后

张佳玮写字的地方
2026-05-12 14:08:02
不出意外的话,中国未来有超过一半的人口,或将会流入到这些地方

不出意外的话,中国未来有超过一半的人口,或将会流入到这些地方

墨兰史书
2026-05-11 20:00:09
貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

纸鸢奇谭
2026-04-13 16:06:54
乔治娜出镜比基尼宣传片,极致身材尽显品牌代言人魅力

乔治娜出镜比基尼宣传片,极致身材尽显品牌代言人魅力

懂球帝
2026-05-12 11:59:09
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-31 15:11:31
美财长登门下警告,高市急了,咽下日元暴跌苦果,下令扩军赌国运

美财长登门下警告,高市急了,咽下日元暴跌苦果,下令扩军赌国运

璀璨幻行者
2026-05-12 14:06:04
中方通告191国拒台湾参会,赖清德受挫,郑丽文挺一中

中方通告191国拒台湾参会,赖清德受挫,郑丽文挺一中

小彭的灿烂笔记1
2026-05-12 11:49:19
让朝鲜同志帮忙来测试,人民海军0111甲型护卫艇首批定型艇的故事

让朝鲜同志帮忙来测试,人民海军0111甲型护卫艇首批定型艇的故事

顾氏造船厂厂长
2026-05-09 08:00:22
猝不及防!三胎仅6个月,方媛又官宣喜讯,郭富城也倍感意外

猝不及防!三胎仅6个月,方媛又官宣喜讯,郭富城也倍感意外

草莓解说体育
2026-05-10 14:55:22
小米粥再次被关注!医生发现:糖尿病患者喝小米粥时要重视这6点

小米粥再次被关注!医生发现:糖尿病患者喝小米粥时要重视这6点

芹姐说生活
2026-04-25 12:32:30
黑尾酱,彻底消失了?

黑尾酱,彻底消失了?

生如稗草
2026-03-15 08:48:11
联盟未来将被以下三支球队统治!雷霆马刺不可阻挡,爵士一鸣惊人

联盟未来将被以下三支球队统治!雷霆马刺不可阻挡,爵士一鸣惊人

老癘体育解说
2026-05-12 15:02:37
过来人忠告:初中掉队的孩子90%都栽在一个习惯,现在改还来得及

过来人忠告:初中掉队的孩子90%都栽在一个习惯,现在改还来得及

蓁蓁心理抚养
2026-05-12 12:30:11
男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

心理观察局
2026-05-04 08:20:08
张国焘拥兵十万设局拉拢,聂荣臻与林彪激烈争吵砸碎盘子,关键时刻名将究竟如何抉择

张国焘拥兵十万设局拉拢,聂荣臻与林彪激烈争吵砸碎盘子,关键时刻名将究竟如何抉择

寄史言志
2026-05-09 19:45:16
2026-05-12 16:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12976文章数 142648关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

女子立遗嘱遗产归弟弟 其女起诉两人返还857万及房产

头条要闻

女子立遗嘱遗产归弟弟 其女起诉两人返还857万及房产

体育要闻

总是掉链子的“倒霉蛋”,闯进了欧战决赛

娱乐要闻

刘涛晒妈祖诞辰活动照 评论区变许愿池

财经要闻

黄仁勋真是被白宫彻底封杀了

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

健康
数码
旅游
游戏
军事航空

干细胞能让人“返老还童”吗

数码要闻

雷军晒小米电竞鼠标2拆解图:是不是很高级

旅游要闻

出游的黄金窗口期来了!机票均价跌超40%,人流少、体验好

任天堂官方贴心提醒!购买会员需注意 很快涨价

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版