硅基日报：前字节视觉大模型 AI 平台负责人加入美团；面壁智能上线新端到端 TTS 模型 VoxCPM 1.5|潘欣|算法|tts|人工智能|知名企业

硅基日报：前字节视觉大模型 AI 平台负责人加入美团；面壁智能上线新端到端 TTS 模型 VoxCPM 1.5

2025-12-11 19:46:53　来源: 硅基观察Pro

北京举报

分享至

据《智能涌现》获悉，前闪极AI 合伙人、前字节视觉大模型 AI 平台负责人潘欣，近期已经加入美团。

据悉，潘欣曾任谷歌大脑（Google Deepmind）研究员，推动 TensorFlow 动态图模式开发。

12 月 10 日，面壁智能宣布，面向高拟真语音生成的新型端到端 TTS 模型 VoxCPM 1.5 版本正式上线。目前，模型已在 Github、Hugging Face 开源。

过去一天，国内外AI行业还有更多热点可以关注，乌鸦君带你一起看看。

大模型

1）前字节视觉大模型 AI 平台负责人加入美团

据《智能涌现》获悉，前闪极AI 合伙人、前字节视觉大模型 AI 平台负责人潘欣，近期已经加入美团。据悉，潘欣曾任谷歌大脑（Google Deepmind）研究员，推动 TensorFlow 动态图模式开发。

回国后，他先后在百度、腾讯与字节跳动任职。具体来看，百度期间，潘欣曾主导PaddlePaddle 平台优化、无量深度学习框架构建，而后任腾讯、字节跳动 AIGC 和视觉大模型 AI 平台负责人，业务方向集中在多模态领域。

此后，2024 年 11 月，其加入闪极科技，担任 AI 合伙人，整体负责 AI 技术研发及智能眼镜项目。据了解，入职美团后，潘欣负责多模态 AI 创新工作，主导了 LongCat App 等多个相关应用的开发。

2）理想自动驾驶负责人回应宇树王兴兴对VLA 质疑

今年8 月的2025 年世界机器人大会上，宇树科技 CEO 王兴兴表示当下火热的 VLA 模型（视觉-语言-动作）是「相对比较傻瓜式的架构」，并表示「保持比较怀疑的态度」。针对王兴兴的质疑，理想自动驾驶负责人「郎咸朋」昨日发文回应。

郎咸朋表示，8 月没有及时提出自己观点，是因为理想 VLA 司机大模型还没正式发布，空口无凭，并且其对具身机器人行业，还处于密切关注阶段。

郎咸朋指出，自己与王兴兴观点最不一样的地方在于，王兴兴认为模型架构更重要，但自己认为模型的关键是要与整个具身智能系统适配，在此基础上，数据是起决定意义的。

郎咸朋通过 VLA 以及具身智能两个方面进行解释：

VLA：

在某些场景下理想的VLA 已经具备了对物理世界的认知涌现，具体表现是用户会越来越多的发现之前端到端没有的拟人行为。

世界模型更适合做「考场」而不是「考生」。世界模型的高算力需求（训练和推理都是）决定了它更适合在云端做数据生成和极度逼真的仿真测试和强化训练。

在自动驾驶领域，脱离了海量真实数据谈模型架构都是空中楼阁。理想之所以坚持VLA，是因为拥有数百万辆车构建的数据闭环，这让理想能在当前算力下，把驾驶水平做到接近人类。

具身智能：

要想做好自动驾驶，必须先把自动驾驶当作完整的具身智能系统对待，每一部分在研发过程中要相互配合才能将价值发挥出来。需要做到全栈自研，不仅仅是软件栈，而是整体软硬全栈。

模型的关键是要与整个具身智能系统适配，在此基础上，数据是起决定意义的。在机器人领域获取数据相对困难，但在自动驾驶领域，特别是建立起数据闭环能力的车企来说并不是大问题。

3）面壁智能上线新端到端 TTS 模型 VoxCPM 1.5

12 月 10 日，面壁智能宣布，面向高拟真语音生成的新型端到端 TTS 模型 VoxCPM 1.5 版本正式上线。快速看本次升级亮点：

高采样音频克隆：AudioVAE 采样率从 16kHz 提升至 44.1kHz ，模型可根据高质量音频，克隆效果更佳、细节更丰富的声音；

生成效率翻倍：在模型参数有所增加的前提下，VoxCPM 1.5 仅需 6.25 个 token 即可生成 1 秒音频，较此前版本提高一倍，在保持速度的同时提升了音频生成质量；

开发者友好：新增LoRA 和全量微调脚本，支持深度定制；

增强稳定性：减少音频伪影，优化长文本音频的生成效果。

目前，模型已在Github、Hugging Face 开源。

AI应用

1）Spotify 测试更多个性化、人工智能驱动的“推荐歌单”

Spotify周三宣布，将首次赋予用户更多控制流媒体服务算法的权力。至少该公司是这样描述其全新“推广歌单”功能的推出的，该功能最初将面向新西兰的Premium会员开放。

据Spotify 称，该功能目前仅支持英语，仍处于测试阶段，在推广到其他市场之前还会不断完善。

据该公司称，这项新工具允许用户描述他们想在个性化歌单中听到的内容，从而反映出他们完整的音乐品味历程。这意味着歌单不仅关注你现在喜欢的歌曲，还关注你从注册Spotify第一天起的所有收听记录——该公司表示，这正是该功能与其他歌单功能的区别所在。

2）谷歌正在部分出版物的谷歌新闻页面上测试人工智能驱动的文章概述功能

谷歌周三宣布，作为一项新的试点计划的一部分，谷歌正在参与的出版物的谷歌新闻页面上测试人工智能驱动的文章概述。

参与试点项目的媒体包括《明镜周刊》、《国家报》、《圣保罗页报》、《Infobae》、《罗盘报》、《卫报》、《印度时报》、《华盛顿观察家报》和《华盛顿邮报》等。

谷歌在一篇博文中表示，这项新的商业合作计划旨在“探索人工智能如何提升用户参与度” 。作为这项人工智能试点计划的一部分，谷歌将与出版商合作，在谷歌新闻中测试新功能。

谷歌表示，通过添加人工智能驱动的文章摘要，用户在点击阅读全文之前可以获得更多背景信息。虽然人工智能生成的摘要可能会导致新闻文章的点击量下降，但参与商业试点项目的媒体机构将直接收到谷歌的付款，这或许可以弥补其网站流量可能出现的减少。

PS：如果你对AI大模型领域有独特的看法，欢迎扫码加入我们的大模型交流群。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

硅基日报：前字节视觉大模型 AI 平台负责人加入美团；面壁智能上线新端到端 TTS 模型 VoxCPM 1.5

Seedance刷屏：网友们玩疯 影视圈瑟瑟发抖

特朗普罕见承认：我犯了个大错

特朗普罕见承认：我犯了个大错

NBA上演全武行，超大冲突4人驱逐！

全红婵官宣喜讯，杂志首秀太惊艳

雀巢中国近千经销商的“追债记”

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

别只看金三银四了！大厂校招早已在2月“偷跑”

冬季穿衣越简单越实用！从这些日常穿搭中收获灵感，大方又自然

海南又一千亿级赛道出现，京东、华润、中石化等巨头率先杀入！

Anker安克在欧洲推soundcore Nebula X1 Pro 4K投影仪，可推着走

宁静港湾 灵动与诗意

Seedance刷屏：网友们玩疯影视圈瑟瑟发抖

应用于190KW四驱Ultra版方程豹钛7搭载天神之眼5.0

宁静港湾灵动与诗意