网易首页 > 网易号 > 正文 申请入驻

不是,怎么有模型叫“老婆们”,还能视频通话啊?

0
分享至


“2030 年,打造出全球十亿人愿意生活在其中的虚拟世界。”

这是三年前米哈游喊出的口号,世超当初听着也是小小激动了一把,但近几年好像都没啥动静了,也就觉得这不过是给咱二次元画的饼罢了。。。


但所谓“ 技术宅拯救世界 ”,米哈游在中二这方面从不让人失望,前些天一个叫“LPM-1.0”的模型新鲜出炉,让咱跟这张饼的距离又近了点儿。

LPM-1.0 (Large Performance Model)即大表演模型,由人工智能公司 Anuttacon 训练,背后正是米哈游联合创始人蔡浩宇。

而在这次的视频模型之前,他们还推出过二次元风格非常浓郁的聊天模型“AnunNeko”,以及 AI 驱动的游戏“Whispers from the Star”。


这游戏隔壁的小发还玩儿过:,挺特殊的。

从这些产品的定位也能看出,Anuttacon 的初衷就是做 AI + 游戏的一些前沿尝试。

所以这次的 LPM-1.0 也不例外,你看名字,LPM 不就是“老婆们”么,这模型就是朝着把你的二次元老婆们复活来的。

蔡喵就是蔡浩宇


当然,玩笑归玩笑,模型能力从官网放出的展示来看,可是一点儿不胡闹,其中让人印象最深的就是这非常丝滑的实时对话了。

演示里根据之前米家的虚拟角色形象“鹿鸣”构建了个真人版,可以在网页中和她实时对话。

这里切换语言到中文后,让她推荐二次元游戏,可以看到回答的效果非常自然,虽然播音腔浓厚了点,但声音和表情的对应是融洽的。

而且不同于一般的视频模型,这里的展示是有一种互动性,能持续进行的。

这就是它的特殊之处了,LPM-1.0 的核心定位不是一次性的生成,而是持续性的表演,让对话变得具有交互感。

所以与其说它是视频生成模型,倒不如说它更像是之前数字人技术的升级版。

数字人其实大伙儿也不陌生,只要点开过上面这种直播间,里面的主播就是数字人,输入指令,你甚至能让主播“喵”一百声。。。

别看上面这位口型都对不准,背后烧的 Token 可不少。

为了支撑她跟观众实时互动,后台需要一个低延迟语音对话 Agent,加上一套实时说话的人脸生成系统,还得再套一层直播推流和运营控制台,非常繁琐。


而这次的 LPM-1.0 直接将前两个部分整合了一下,直播互动更方便了。

官方也直接告诉大伙儿,模型主打的就是无限的视频生成时长,只要你想,这对话能一直进行下去。。。


既然是跟数字人技术对比,正好之前也有快手的 KlingAvatar-2.0 和字节的 OminiHuman 15,都是同类的生成模型,放在一起就能看出 LPM-1.0 的质量怎么样了。

这次的 LPM 模型分了两种,一种是离线的 Base 模型,和普通的视频模型一样,给定提示词去生成视频;另一种就是 Online 模型,就是最开始演示的那样,具有交互感,实时生成的模型了。

这里先拿离线的 Base 基础模型来举例,生成 720p 分辨率的仿直播视频,别的不说,就“活人感”这方面还是很出色的。

在对比视频里,最左边的 LPM-1.0 跟另外几个模型相比,生成时间更长,持续性以及面部表情都更加自然。

一方面,人物能够根据说的话配合一些肢体动作;另一方面,跟音频的配合也更紧密,不会像其他模型那样被背景音乐干扰,去跟不属于角色的声音对嘴型。


不过美中不足的是,当切换到实时生成的 Online 模型,还原真实直播场景时,效果就打了个折。

比如下面官方给的 Demo,就只有 480p 的分辨率,虽然看着还行,但确实不如离线模型生成的稳定,动作大点就容易看出 AI 感。

再来看模型刻在名字里的表演,放到生成的视频里,就是看人物的表情动作和情绪变化对不对得上。

毕竟咱也刷到过那种用力过猛的,或者动作肌无力的,只要表演的度把握不好,就容易出现伪人感。


看 Demo 对多种情绪的展示,绝望愤怒等情绪中规中矩,但一些波动比较小的情绪,像悲伤或者沮丧,面部细节还挺多的,表现的效果也非常自然。

不过,表演这块儿人类还是很挑剔的,再加上萝卜青菜各有所爱,所以到底哪种程度刚刚好咱也说不太准儿。

但要是后面能给一些更细的,更可控的参数选项,这发挥空间就更大了。


那这么好玩儿的模型,Anuttacon 是怎么搓出来的呢?

其实这得归功于 LPM 新的流式架构了,这架构非常灵活,而参数大概在 17B(170 亿)左右,原生支持文本,语音和图片输入,原理上后期也能拓展到视频输入。


至于模型最重要的视觉能力,Anuttacon 则走了个捷径,训练时是在阿里的开源模型 Wan 2.1-I2V 上的,效果拔群。

这也是开源的好处,节省出这些造轮子的功夫,也好给咱带来更多好活儿。


除此之外,模型还原生支持“全双工”的自然对话,就是既有“听”的反馈,又有“说”的表演。

这依赖于新引入的交替式双音频注入机制:模型内部的偶数层处理说话音频,奇数层处理倾听音频。

说大白话就是把对话音频拆成两部分处理,一部分负责体现聆听,另一部分负责表演说话,将交互拆成不同内容进行处理,更细了,也就更自然了。


当然,模型输出的形式还是视频,所以和视频模型一样,怎么控制人物主体的一致性还是必须要解决的难题。

从模型的技术报告里能看出,他们的方案是不依赖单张图片,而是拿 1 张全局图、1-4 个身体多视角图、1-8 种面部表情图综合起来控制。

除了加多参考图,模型内部还特意对表情图和视角图进行了特征区分,换句话说就是模型在生成视频时,能认出特征的不同类型,不容易因为特征冲突而陷入混乱。


而在这些基础上,还有一堆注意力细节的调控,以及特征锚点的设置,总之就是拼尽全力去确保人物做动作时不变形。

当然,由于这模型演示的场景人物动作的幅度都比较小,样本不多,所以其他情况的效果还有待实测,只能看后续有没有其他模型按这个思路试试了。


那对话有了,人物也一致了,延迟是怎么降下来的呢?

其实也不复杂,就是先拿主干模型生成粗略的草稿,再拿细化模型填补面部和动作细节,分工明确,流水线式生成。

这么一来,推理步骤被压缩成了 2+1,一共才三步,再加上一些流式编码和并发执行技术,整个对话过程的延迟被大幅降低。


在技术报告里,他们还透露了具体的架构,就是用主干(Backbone)加细化(Refiner)的方式将原来庞大的扩散模型转换成了简单的自回归网络。

而有了这些技术的助力,也就能支撑 LPM-1.0 去无限时长的实时(低延迟)对话了。


当然,以上这些咱也只是云了一波,因为这次的发布并不是模型或者产品的发布,只是技术和样例的展示。

换句话说,虽然一些技术思路以及视频的效果都挺亮眼,但咱还用不到,而且到手里用起来具体什么样也是未知。

不过就上面展示的效果来看,喜欢看直播的家人们有福了,因为以后屏幕前看起来形形色色的主播,后面坐着的可能连人都不是了。。。

撰文:风华

编辑:早起 & 江江 & 面线

美编:焕妍

图片、资料来源

LPM技术报告,NVIDIA官网,X,小红书,知乎,网络


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江瑞安某中学5名学生怀孕?当地警方:相关人员散布谣言已被拘留

浙江瑞安某中学5名学生怀孕?当地警方:相关人员散布谣言已被拘留

台州交通广播
2026-05-13 20:18:02
河北无极县一火锅店发生恶性案件?知情人:确有刑案发生,嫌疑人已抓获,案件侦办中;附近商铺店员称涉事店铺刚开业不久,已停业摘牌

河北无极县一火锅店发生恶性案件?知情人:确有刑案发生,嫌疑人已抓获,案件侦办中;附近商铺店员称涉事店铺刚开业不久,已停业摘牌

极目新闻
2026-05-14 10:50:33
数据证明:丈夫失业一年,78%的妻子会提离婚,重新找人过日子

数据证明:丈夫失业一年,78%的妻子会提离婚,重新找人过日子

舒山有鹿
2026-05-14 12:20:22
大S年轻时房间曝光,太过诡异引人不适,难怪有人曾说活不过50岁

大S年轻时房间曝光,太过诡异引人不适,难怪有人曾说活不过50岁

草莓解说体育
2026-05-11 20:49:33
1984年叶剑英病危,追悼会花圈已备好,35岁才当医生的钟南山凭什么临危受命救回元帅?

1984年叶剑英病危,追悼会花圈已备好,35岁才当医生的钟南山凭什么临危受命救回元帅?

史海孤雁
2026-05-09 19:13:11
5月,遇到这水果别手软,一次买20斤,晒干后美味翻倍,营养解馋

5月,遇到这水果别手软,一次买20斤,晒干后美味翻倍,营养解馋

阿龙美食记
2026-05-13 14:06:46
华人遍布全世界各地,却为何唯独泰国华人,几乎被完全同化

华人遍布全世界各地,却为何唯独泰国华人,几乎被完全同化

长风文史
2026-05-13 17:00:01
广州的“强对流套餐”来了,地铁会受影响吗?

广州的“强对流套餐”来了,地铁会受影响吗?

广州地铁
2026-05-14 07:55:45
特朗普送上第一份大礼,中国欣然收下,人民日报点破中美新心态

特朗普送上第一份大礼,中国欣然收下,人民日报点破中美新心态

铁锤简科
2026-05-14 13:31:51
河南信阳警方:一小轿车发生剐蹭后失控致1死5伤,司机涉嫌醉驾

河南信阳警方:一小轿车发生剐蹭后失控致1死5伤,司机涉嫌醉驾

澎湃新闻
2026-05-14 02:24:09
陈宝国自曝:拍大宅门时,何赛飞不问青红皂白,直接给我一嘴巴子

陈宝国自曝:拍大宅门时,何赛飞不问青红皂白,直接给我一嘴巴子

她时尚丫
2026-05-12 23:32:24
广州毒保姆何天带:一年杀8位老人,扬言:老人活多久我说了算

广州毒保姆何天带:一年杀8位老人,扬言:老人活多久我说了算

莫地方
2026-05-14 01:05:05
痛失两个儿子,笑着接受采访、侃侃而谈!获奖女作家的淡定引争议

痛失两个儿子,笑着接受采访、侃侃而谈!获奖女作家的淡定引争议

火山詩话
2026-05-12 06:56:54
俄罗斯又开始许愿,要求乌克兰撤出“俄罗斯领土”

俄罗斯又开始许愿,要求乌克兰撤出“俄罗斯领土”

山河路口
2026-05-13 20:35:10
马斯克说会谈很顺利,黄仁勋点赞、库克比耶

马斯克说会谈很顺利,黄仁勋点赞、库克比耶

财闻
2026-05-14 13:34:16
某单位购入一批“新”硬盘,其中残留涉及党政机关、高校、银行等单位的内部文件……国安部通报!

某单位购入一批“新”硬盘,其中残留涉及党政机关、高校、银行等单位的内部文件……国安部通报!

封面新闻
2026-05-14 10:44:08
消息人士告诉ESPN:得到东契奇之后,湖人曾尝试将老詹清理出队

消息人士告诉ESPN:得到东契奇之后,湖人曾尝试将老詹清理出队

移动挡拆
2026-05-14 05:34:11
台湾网友曾发出质疑:我们日子过得明明挺好,为什么还要回归?

台湾网友曾发出质疑:我们日子过得明明挺好,为什么还要回归?

南风不及你温柔
2026-05-14 09:03:21
老婆升职后立马离婚改嫁领导,三天后前岳母来电:快来医院交50万

老婆升职后立马离婚改嫁领导,三天后前岳母来电:快来医院交50万

千秋文化
2026-05-11 20:33:49
在欣旺达干过3个月普工,告诉你为什么苹果原装电池碾压第三方!

在欣旺达干过3个月普工,告诉你为什么苹果原装电池碾压第三方!

朱笑川
2026-05-14 11:35:31
2026-05-14 14:28:49
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
10753文章数 489637关注度
往期回顾 全部

游戏要闻

《守望先锋》十周年放大招一次推出5位英雄,Steam同时在线破新高

头条要闻

十四世达赖的亲侄子被指诱奸超25名女孩 带女下属开房

头条要闻

十四世达赖的亲侄子被指诱奸超25名女孩 带女下属开房

体育要闻

登海报!哈登30+8+6创多项纪录 第8次赢天王山

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

片仔癀依旧困在“片仔癀”

科技要闻

马斯克:只有我和黄仁勋坐上了"空军一号"

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

健康
时尚
房产
数码
本地

干细胞能让人“返老还童”吗

T恤+低腰阔腿裤、衬衫+低腰半裙,今年夏天最时髦的搭配,谁穿谁好看!

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

数码要闻

英特尔预言成真!CPU迎来第二春:巨头翻倍扩产应对订单潮

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版