网易首页 > 网易号 > 正文 申请入驻

苹果AI的「中国局」:联合高校发布大模型,是秀肌肉还是求生存?

0
分享至

2024年的WWDC上,苹果公布了自家的人工智能平台Apple Intelligence。2024年秋季,Apple Intelligence在美国开启测试,后续逐渐拓展到更多地区。

不过,到目前为止,国行Apple Intelligence仍然没有落地。对此,苹果官方的说法是「Apple 智能推出时间依监管部门审批情况而定。」



(图源:苹果)

日前,知名苹果爆料网站9to5Mac发文称,苹果联合中国人民大学推出了VSSFlow新型AI模型,宣布在音频生成技术取得了突破。苹果此举不仅是一次AI技术实力的展示,同时似乎也在释放和国行Apple Intelligence相关的积极信号,Apple智能真的要来了吗?

无声视频自动配音,VSSFlow能解决哪些难题?

通过苹果和中国人民大学联合发布的论文以及9to5Mac的相关报道,我们可以了解到,VSSFlow的主要亮点是打破了以往「环境音」和「对话语音」需要分别生成的限制。具体来说,以往的大部分视频生成语音模型,都是把音频中的环境音和人声分开处理,而VSSFlow的优势在于一站式同步生成。



(图源:arXiv)

根据官方的说法,VSSFlow模型生成环境音的方式是每秒读取10帧视频画面作为线索,然后在随机噪声中逐步「构建」出画面的声音。这个表述听起来很简单,但实现起来并不容易。一段没有声音的视频,AI当然也不可能「听」得到,本质上还是根据视频画面来「猜」最接近最真实的环境音,比如判断出画面中的具体现实场景,再匹配相应的环境音。

VSSFlow对应的论文提到了关键的技术点——Flow-matching(流匹配),在AI世界中,模型需要通过杂乱的信息推理生成最可能的声音。视频画面中藏着声音对应的线索,AI就是要在这些杂乱的「噪音」和目标声音之间建立起到达的路径,也就是「流」。建立「流」的关键,是对视频画面和文字脚本的准确理解。



(图源:arXiv)

至于文本生成语音的能力,在早期就存在很多解决方案。比如说,早前的智能手机以及很多阅读App,都有TTS(文字转语音)功能,它们只要把文字直接转成语音库里的预制音频即可。不过,这种方案比较简单粗暴,声音听起来机械感明显,长句断句会很奇怪。AI时代,大模型加持的文字转语音体验得到了大幅升级,真人感更明显,无论是断句、语气还是情绪,都逐渐能做到以假乱真。

VSSFlow的视频生成人声技术,特点在于通过视频脚本+视频画面来生成音频,可以通过画面中人物的口型、表情等因素来匹配语音的语气、情绪、节奏等,从而生成更真实的AI人声。

开头说到了,VSSFlow能够同时为视频生成环境声和人声,根据官方描述,他们将视频信号和文本转录一起嵌入到音频生成的过程中。为了达到这一效果,研究人员进行了混合数据训练,具体表现为VSSFlow模型训练时使用了无声视频配环境音、无声说话视频配文本、以及纯文本转语音的数据。

简单总结下,VSSFlow是一款视频生成音频大模型,能同时为无声视频生成环境声和人声,核心优势在于通过流匹配技术提升了生成效率和音频质量。

用AI生成语音,有点用但仍然太局限

VSSFlow帮助视频生成环境音和人声的功能,具体能应用到哪些场景呢?小雷能想到的大概就是老旧电影的音频修复、失语障碍人士的辅助音频、影视作品配音等。毕竟,VSSFlow仍然需要依赖文字脚本来生成人声,不能只根据视频画面来推测出人声,这将让它更接近于一款更好用的配音工具。

目前市面上和VSSFlow最接近的大模型,应该是谷歌的Deepmind V2A(视频转音频)。V2A也是根据视频画面和文字脚本来生成对应的环境音和人物对话,它的技术方案是在视觉信息和听觉信息之间建立起映射机制。

具体来说,视觉信息包含的主要是空间、色彩、形状、运动等,听觉信息一般是音色、频率、节奏等,二者是不同的语义。将视觉特征和听觉特征进行多层次的映射,持续训练后,AI就能根据视频画面的信息「猜」出它应该匹配何种听觉特征的音频。



(图源:谷歌)

不过,在小雷看来,视频生成语音技术的应用场景,还是略微局限了一些。对普通用户来说,这项功能的作用不是特别大。作为对比,当下流行的视频生成技术,更加受创作者和普通用户欢迎。使用者只要用一段话、几张图片,就能快速生成一段高真实度的视频,实用性和趣味性都能瞬间拉满。比如最近的Seedance 2.0,刚上线就火爆全网,大量用户第一时间就尝鲜体验了。



(图源:雷科技,用Seedance 2.0制作)

但给无声视频配音这个场景,大部分人都很难遇到,毕竟我们不会无缘无故制作或者得到一段无声视频。它更加适用于影视制作行业中的某些细分领域,比如传统拟音师的工作。

我们在很多影视作品中听到的环境声和动作声,其实都是拟音师在录音棚里录的,比如敲击椰子壳模拟马蹄声、搓动门锁模拟手枪上膛声等。同时,VSSFlow根据脚本和画面生成人声的功能,和动漫声优所做的配音工作很接近。可以想象到的是,音频生成技术未来对影视行业产生的冲击力会相当大。

同时,VSSFlow为代表的语音生成模型,固然不太可能作为独立的应用向普通用户推出,但和其他AI技术结合,会发挥出更大作用。比如它可以和视频生成模型相结合,现在流行的视频生成模型制作出来的视频,大多会有配音。

不过,很多AI生成视频的背景音和人声质量都相对一般,如果有VSSFlow之类的语音生成模型助力,那么整体的效果会更好。实际上,谷歌Deepmind的V2A技术并没有以单独模型的方式发布,而是将部分功能整合在谷歌自家的视频生成模型Veo中。

苹果联手国内重点高校,国行版AI要来了?

对于苹果产品,VSSFlow能落地的场景,小雷首先想到的是无障碍功能。目前苹果设备的辅助选项中已经有实时语音功能,即用户可以手机上打字,然后转成音频。



(图源:苹果)

如果VSSFlow能运用到这个场景里,那么语言障碍人士就可以在FaceTime之类的视频通话中,边输入文字,边让AI结合视频画面生成更自然的人声。当然,这项技术也能作为苹果在AI领域的储备,为后续视频生成等功能或应用提供助力。

而且,苹果和国内重点高校合作、联合发布VSSFlow,无疑是在释放愿意深耕国内市场、推动国行AI落地的积极信号。在VSSFlow的论文中,署名者中六位是来自中国人民大学的学者,三位是苹果的研究员。在这个项目中,苹果扮演的角色更接近于支持者、参与者而非主导者。

目前,国行版Apple Intelligence尚未推出。按照苹果的政策,国行版iPhone等设备无法使用外版Apple Intelligence,未来外版硬件产品也不能用国行版Apple Intelligence。

基本可以确定的是,国行版Apple Intelligence的落地过程中,苹果会和国内AI巨头达成合作。之前的传言中,百度、阿里、DeepSeek等都是苹果接触过的厂商。2025年,彭博社知名记者马克·古尔曼曾透露,国行Apple Intelligence采用的方案是阿里提供本地模型支持,百度文心一言提供云端AI支持。不过,国行Apple Intelligence 2025年未能落地,主要原因在于遇到了一些工程难题,同时国行AI的表现比较一般。

不过即便忽略国行版AI缺位的事实,苹果的AI布局相对其他厂商是比较落后的。目前而言,海外版Apple Intelligence实现的功能和场景,其实没有太多特别之处,反而因为其相对羸弱的AI实力而被吐槽。比如说,苹果近年推出的生成式图片App「图乐园(Image Playground)」,就饱受批评。这款App对图片生成行为的管控非常严格,很多用户的需求都被拒绝,被吐槽为只适合儿童使用的产品。

Apple Intelligence还引入了外部力量来帮忙,主要是ChatGPT,后续还有Gemini。其中,ChatGPT植入到了Siri中,让Siri更像一个完全体的智能助理而非传统的语音助手。另外,AI相关的功能还有写作助理、图片消除等。只是,苹果这些所谓的AI功能,实际体验起来震撼感不够强,有点小打小闹的感觉。

而且,苹果为iOS 26画的AI饼,至今还没让用户吃上。根据最新消息,iOS 26.4的首个测试版将于2月底推送,会给AI带来一点变化。这次系统升级,主要就是Siri会得到增强,包括拥有上下文理解能力、跨应用操作能力和屏幕感知识别能力。坦率说,这些升级仍然不会有什么惊喜感,只是多少会让iOS 26变得更好用点。

作为对照组的三星,早在2024年就推出了AI手机,并且快速完成了国行手机的AI本地化。具体来说,国行版手机中负责文本理解和生成的大模型为百度的文心一言,具体在笔记助手、录音转录摘要等场景中发挥作用;它的生成式图片编辑器则集成了美图的奇想智能模型,实现智能消除、扩图等功能;国行版的即圈即搜功能,后台数据来源于百度搜索和京东。另外,三星国行手机也有部分端侧AI功能,通话实时翻译和分屏同传翻译,都是基于三星自研本地AI模型实现的。



(图源:三星)

换言之,苹果国行AI方案,大体上抄三星的作业就行。相比海外版Apple Intelligence,国行版的核心工作就是将其中涉及到的大模型替换成国内的,三星已经做出了示范。

小雷个人认为,苹果国行AI进展缓慢,主要责任还是在苹果身上。毕竟,海外Apple Intelligence的落地过程也是一路磕磕绊绊,而且AI功能的实际体验很一般。以这样的执行力去推动国行Apple Intelligence项目,效率可想而知。

当然,不管怎么说,苹果参与的VSSFlow的到来,至少说明了苹果在AI领域不是毫无作为。如果苹果能持续在AI研究领域产出成果,那么苹果硬件AI化进程将从中获益,这才是构建未来苹果底层竞争力的关键。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
终于知道采购吃回扣是怎么被发现的了,网友分享真实,太开眼了

终于知道采购吃回扣是怎么被发现的了,网友分享真实,太开眼了

夜深爱杂谈
2026-03-13 22:02:43
F1中国站冲刺赛:拉塞尔杆位夺冠,法拉利二三,三人退赛

F1中国站冲刺赛:拉塞尔杆位夺冠,法拉利二三,三人退赛

懂球帝
2026-03-14 11:42:15
西安“不倒翁小姐姐”皮卡晨官宣离职,回应“嫁入豪门”:我爆火的时候跟我婆婆可能还没有见过

西安“不倒翁小姐姐”皮卡晨官宣离职,回应“嫁入豪门”:我爆火的时候跟我婆婆可能还没有见过

大象新闻
2026-03-13 10:45:02
邓文迪还是牛!前夫默多克95岁生日宴,她和两个女儿精心打扮出席

邓文迪还是牛!前夫默多克95岁生日宴,她和两个女儿精心打扮出席

照见古今
2026-03-12 19:27:38
泽罗伯托反思皇马生涯:沉迷打游戏毁了一切

泽罗伯托反思皇马生涯:沉迷打游戏毁了一切

体坛周报
2026-03-14 12:08:17
有哪些令人瞠目结舌的巧合?网友:你永远不知道明天意外哪个先来

有哪些令人瞠目结舌的巧合?网友:你永远不知道明天意外哪个先来

另子维爱读史
2026-03-13 22:32:00
毛远新出狱常落泪,晚年享双重优待,身世与人生起落藏内情

毛远新出狱常落泪,晚年享双重优待,身世与人生起落藏内情

唠叨说历史
2026-03-10 12:40:40
特朗普刚从韩国撤出萨德,中朝边境就出现了大动作:六年来第一次

特朗普刚从韩国撤出萨德,中朝边境就出现了大动作:六年来第一次

现代小青青慕慕
2026-03-13 19:09:24
不喧哗、不浮躁

不喧哗、不浮躁

有一点可爱
2026-03-13 23:15:04
切尔西惊天换帅!埃梅里已谈妥,2 人必被清洗,3 巨星空降!

切尔西惊天换帅!埃梅里已谈妥,2 人必被清洗,3 巨星空降!

澜归序
2026-03-14 03:52:59
F1上海站冲刺赛:拉塞尔夺冠,法拉利车队位居二三

F1上海站冲刺赛:拉塞尔夺冠,法拉利车队位居二三

澎湃新闻
2026-03-14 12:24:27
爱德华兹:朋友说我整天都在网上瞎扯,比赛中还是能拿40分

爱德华兹:朋友说我整天都在网上瞎扯,比赛中还是能拿40分

懂球帝
2026-03-14 13:50:12
省着点用杜兰特吧,他都37了

省着点用杜兰特吧,他都37了

只关于篮球
2026-03-14 13:38:04
医院里为什么看不到和尚、道士、尼姑去看病呢?主要有4个原因

医院里为什么看不到和尚、道士、尼姑去看病呢?主要有4个原因

猫叔东山再起
2026-03-12 11:50:08
悲催!男人收入锐减,称是婚姻乞讨者,西安中年夫妻对话引爆网络

悲催!男人收入锐减,称是婚姻乞讨者,西安中年夫妻对话引爆网络

火山詩话
2026-03-12 06:23:58
72岁老戏骨濮存昕官宣外孙女出道,尖嘴猴腮,长相遭吐槽:太丑了

72岁老戏骨濮存昕官宣外孙女出道,尖嘴猴腮,长相遭吐槽:太丑了

深析古今
2025-12-08 12:29:36
3·15调查|广东年例曝出多款山寨饮料,撕开“王老吉”的外衣竟是荔枝汁

3·15调查|广东年例曝出多款山寨饮料,撕开“王老吉”的外衣竟是荔枝汁

南方农村报
2026-03-13 20:44:55
山姆超市最值得买的10样美食,基本都口碑封神,性价比拉满

山姆超市最值得买的10样美食,基本都口碑封神,性价比拉满

市井觅食记
2026-03-09 00:59:33
一周烧掉一艘航母, 美国打仗有多贵?

一周烧掉一艘航母, 美国打仗有多贵?

每日经济新闻
2026-03-13 15:49:45
国乒这步棋太狠!放弃蒯曼亮出底牌,压死日本新星撕开孙王防线

国乒这步棋太狠!放弃蒯曼亮出底牌,压死日本新星撕开孙王防线

生活新鲜市
2026-03-14 11:18:04
2026-03-14 14:04:49
雷科技 incentive-icons
雷科技
专注AI硬科技
36421文章数 811924关注度
往期回顾 全部

科技要闻

xAI创始伙伴只剩两人!马斯克“痛改前非”

头条要闻

起底"幽灵直播间":昼伏夜出 自称卖骨折价名牌工厂货

头条要闻

起底"幽灵直播间":昼伏夜出 自称卖骨折价名牌工厂货

体育要闻

NBA唯一巴西球员,增重20KG顶内线

娱乐要闻

张艺兴,犯了大忌

财经要闻

3·15影子暗访|神秘的“特供酒”

汽车要闻

吉利银河M7技术首秀 实力重构主流电混SUV

态度原创

健康
房产
手机
艺术
公开课

转头就晕的耳石症,能开车上班吗?

房产要闻

不容易啊!海口终于又要卖地了!

手机要闻

华为畅享 90系列正式官宣:搭载麒麟8系芯片+巨鲸大电池

艺术要闻

第四届深圳大芬国际油画双年展 | 入选油画选刊(二)

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版