网易首页 > 网易号 > 正文 申请入驻

突然袭击!刚刚,Meta超级智能团队首个大模型来了

0
分享至


来源:机器之心

Meta 的大模型,卷土重来了!


刚刚,Meta 重金组建的超级智能实验室(SML)交卷!这也是年轻华人 Alexandr Wang 带领该团队后,交出的首份成绩。

Meta 一直是生成式 AI 时代最值得关注的公司之一,早在 2023 年初,它凭借开源 Llama 系列模型,迅速积累了一批忠实且规模庞大的用户群体。然而,这一势头在去年戛然而止:Llama 4 发布后评价褒贬不一,最终甚至被曝出存在刷榜(操纵基准测试)的情况。

Llama 4 这次颇为坎坷的发布,促使 Meta 创始人兼 CEO 扎克伯格在 2025 年夏天对公司的 AI 业务进行了彻底重组,成立了一个全新的内部部门 ——Meta Superintelligence Labs(MSL),并邀请年仅 29 岁的前 Scale AI 联合创始人兼 CEO Alexandr Wang 出任首席 AI 官,负责领导该部门。

在此之后,Meta 又以高薪招募了多位顶级研究员,试图在大模型与通用智能(AGI)竞争中重新夺回主动权。

如今,Meta 正在展示这一系列调整的成果:全新自研模型 Muse Spark 上线。

Alexandr Wang 在竞争对手社交平台 X 上表示,「今天,Meta 正式发布 Muse Spark,这是 MSL 推出的首个模型。九个月前,我们从零开始重构了整套 AI 技术栈 —— 包括全新的基础设施、全新的模型架构以及全新的数据管线。Muse Spark 正是这一系列工作的成果,如今它已成为 Meta AI 的核心驱动力。」


Alexandr Wang 还表示,这是 Meta 迄今发布的最强模型,并具备工具调用、视觉思维链(visual chain of thought)以及多智能体协同(multi-agent orchestration)能力。他还透露,这将成为全新 Muse 模型家族的起点。

赵晟佳、Jason Wei等从OpenAI跳槽到Meta的大牛们,也开始「带货」新模型。



不过这也引发了外界对于 Meta 现有明星产品线,Llama 系列未来走向的诸多猜测。

Muse Spark 的定位,并非一个通用聊天机器人,而是构建所谓个人超级智能的基础。按照 Wang 的说法,这类 AI 不只是处理文本,而是能够看见并理解你周围的世界,从而成为个体能力的数字延伸。这一愿景,与扎克伯格在 2025 年夏天公开提出的个人超级智能宣言形成呼应。

Muse Spark 目前暂时仅限于在 Meta AI 应用和网站中使用,并通过面向部分用户开放的私有 API 预览提供访问。此外,目前 Meta 也尚未公布该模型的定价信息。至于 Meta 是否已经完全停止 Llama 系列的后续开发,目前仍不明确。

Muse Spark 性能

Muse Spark 在多模态感知、推理、医疗相关任务以及各类 agent 任务上表现出具有竞争力的能力。


Meta 还发布了 Contemplating(深度思考)模式,该模式可以调度多个 agent 并行推理。这使得 Muse Spark 能够在推理能力上,对标诸如 Gemini Deep Think 和 GPT Pro 等前沿模型的高强度推理模式。

这一点在评测指标上可以看出来。在 Contemplating 模式下,Muse Spark 在 Humanity’s Last Exam 测试中达到了 58%,在 FrontierScience Research 测试中达到了 38%。


Muse Spark 现已上线,Contemplating(深度思考)模式将会在 meta.ai 中逐步推出。

应用场景

Muse Spark 被视为 Meta 迈向个人超级智能的第一步,一种能够理解用户所处环境的 AI。从分析周围场景到辅助健康管理,其更强的推理能力被认为可以支撑一系列高度个性化的应用场景。

多模态能力

从设计之初,Muse Spark 就强调跨领域、跨工具整合视觉信息。在视觉类 STEM 问题、实体识别和空间定位等任务上展现出较强能力。这些能力被整合后,可以支持更具交互性的应用,例如生成简单小游戏,或通过动态标注帮助用户排查家中设备问题。

健康领域

在健康场景中,Meta 将个人超级智能视为重要落地方向之一。据介绍,其与超过 1000 名医生合作构建训练数据,以提升模型在健康推理方面的准确性和完整性。基于这些能力,Muse Spark 可以生成交互式内容,用于解释健康信息,例如食物的营养结构或运动过程中涉及的肌肉群等。

示例展示


提示:我是一名鱼素者,且胆固醇偏高。请在推荐的食物上标记绿点,在不推荐的食物上标记红点。请勿重复标记,并确保圆点的位置准确无误。当鼠标悬停在圆点上时,请显示个性化的推荐理由、满分 10 分的健康评分,以及该食物的热量、碳水化合物、蛋白质和脂肪含量。健康评分的数值应直接显示在圆点正上方,无需悬停即可见。悬停时显示的详细说明文字,应置于所有其他圆点的上方。


提示:针对这两张图片,请分别指出正在拉伸的肌肉部位及其难度等级。当鼠标悬停在圆点上时,请提供关于该肌群的详细信息,并指导我如何纠正动作姿势。我希望能提升自己的瑜伽水平。请将我和我的伙伴的图像并排展示,并分别以 1 到 10 的分数对我们两人的表现进行评分。

提示:你能把这个变成一个可以在网页上玩的数独游戏吗?


提示:识别咖啡机和磨豆机的关键组件,并制作一个交互式教程,通过简单的网页演示如何使用该设备制作拿铁咖啡;当鼠标悬停在操作步骤上时,网页将高亮显示对应组件的边界框。

扩展维度(Scaling Axes)

为了实现个人超级智能,模型能力需要以可预测且高效的方式持续扩展。为此,Meta 从三个维度对 Muse Spark 的规模化能力进行研究与跟踪:预训练、强化学习,以及测试时推理。

预训练(Pretraining)

预训练阶段,是 Muse Spark 获取核心能力的基础,包括多模态理解、推理以及编程能力,这些能力也为后续的强化学习和测试时计算提供支撑。

在过去九个月中,团队对预训练体系进行了全面重构,涵盖模型架构、优化方法以及数据构建等多个方面。这些改进共同提升了单位算力所能释放的模型能力。

为了更严格地评估这一新体系,团队通过一系列小模型拟合了扩展定律(scaling law),并对比了在达到同等性能水平时所需的训练 FLOPs。结果显示:与此前的 Llama 4 Maverick 相比,现在可以用超过一个数量级更少的算力,达到相同能力水平。这一提升也使 Muse Spark 在效率上显著领先于当前可对比的主流基础模型。


强化学习

在完成预训练之后,强化学习(RL)通过进一步投入算力,持续放大模型能力。尽管大规模 RL 一直以来都容易出现不稳定问题,但在新的技术体系下,模型表现出平稳且可预测的提升。

相关结果显示,随着 RL 计算量(以训练步数衡量)的增加,Muse Spark 的能力持续增强。左图中可以看到,在训练数据上,pass@1 和 pass@16(即 16 次尝试中至少成功一次)的指标呈现对数线性增长,这表明 RL 在提升模型可靠性的同时,并没有削弱其推理多样性。

右图则显示,在独立的测试集上,准确率同样稳步提升,这说明 RL 带来的能力提升具备良好的泛化性:即使是训练中未见过的任务,Muse Spark 的表现也在持续改善。


测试时推理(Test-Time Reasoning)

强化学习(RL)让模型在给出答案之前先思考,这一过程被称为测试时推理。要将这种能力服务于数十亿用户,关键在于高效使用推理 tokens。为此,Meta 主要依赖两个核心手段:一是通过思考时间惩罚来优化 token 使用效率,二是通过多智能体协同,在不显著增加响应时间的情况下提升性能。

为了实现每个 token 带来更多智能,其 RL 训练目标是在引入思考时间惩罚的前提下最大化正确率。在 AIME 等部分评测中,这一机制会引发一种相变现象:模型最初通过延长思考时间来提升表现,但随着长度惩罚的引入,开始压缩推理过程,Muse Spark 能用更少的 tokens 完成同样的问题求解。

在完成压缩之后,模型又会适度延展推理过程,以进一步提升整体表现,实现效率与性能之间的动态平衡。


为了在不显著增加延迟的情况下投入更多测试时推理计算,可以通过增加并行协作的 agent 数量来解决复杂问题。下图展示了这一方法的优势:相比传统测试时扩展(让单个 agent 思考更久),通过多 agent 协同推理来扩展 Muse Spark,可以在保持相近响应速度的同时,实现更优的性能表现。


https://ai.meta.com/blog/introducing-muse-spark-msl/

https://venturebeat.com/technology/goodbye-llama-meta-launches-new-proprietary-ai-model-muse-spark-first-since

阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”


未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
诈骗13.9亿,千万豪车,成堆金条被拍,才知王丽坤夫妇究竟多奢靡

诈骗13.9亿,千万豪车,成堆金条被拍,才知王丽坤夫妇究竟多奢靡

傲傲讲历史
2026-03-09 02:50:57
56岁的王菲现身西藏,打扮的很高级,不愧是经常拜佛的人

56岁的王菲现身西藏,打扮的很高级,不愧是经常拜佛的人

乡野小珥
2026-04-11 01:30:53
外交部公开发声,10字定性郑丽文访问大陆,白岩松的话果真没说错

外交部公开发声,10字定性郑丽文访问大陆,白岩松的话果真没说错

娱乐圈的笔娱君
2026-04-11 04:04:19
董路发文回击黄健翔,称对阵英格兰二队还被摁在禁区,他们到头了

董路发文回击黄健翔,称对阵英格兰二队还被摁在禁区,他们到头了

体坛风之子
2026-04-11 07:00:09
农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

白云故事
2026-01-22 17:30:05
伊朗:如无协议且战火重燃,将打击美以在中东利益

伊朗:如无协议且战火重燃,将打击美以在中东利益

界面新闻
2026-04-11 08:36:12
队史第一!格林35+11三分生涯纪录 本季227三分有望超雷阿伦登顶

队史第一!格林35+11三分生涯纪录 本季227三分有望超雷阿伦登顶

醉卧浮生
2026-04-11 10:31:39
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
西班牙强烈批评以军黎巴嫩行动,内塔尼亚胡下令驱逐西班牙代表

西班牙强烈批评以军黎巴嫩行动,内塔尼亚胡下令驱逐西班牙代表

Nee看
2026-04-10 22:08:36
重庆今年夏天有多热?最新预测来了……

重庆今年夏天有多热?最新预测来了……

万州生活
2026-04-10 22:39:29
韩媒:一旦开战,将对北京发起致命打击,大连、青岛都在列!

韩媒:一旦开战,将对北京发起致命打击,大连、青岛都在列!

青烟小先生
2026-04-11 09:46:04
美国绕月飞船返回:遭受2800℃灼烧,隔热罩最厚仅7.6厘米!

美国绕月飞船返回:遭受2800℃灼烧,隔热罩最厚仅7.6厘米!

火星一号
2026-04-11 00:58:23
郑丽文:只要对两岸和平有帮助的事,都愿意去做

郑丽文:只要对两岸和平有帮助的事,都愿意去做

澎湃新闻
2026-04-11 08:03:37
节俭!瓜帅周薪50万欧,但他女儿在用裂了的iPhone15

节俭!瓜帅周薪50万欧,但他女儿在用裂了的iPhone15

懂球帝
2026-04-11 02:27:07
以色列法院恢复审判内塔尼亚胡涉嫌腐败案

以色列法院恢复审判内塔尼亚胡涉嫌腐败案

参考消息
2026-04-10 14:06:44
湖人季后赛前搞事情!裁掉场均25分天才后卫 要签狠角色?

湖人季后赛前搞事情!裁掉场均25分天才后卫 要签狠角色?

仰卧撑FTUer
2026-04-11 11:02:33
热搜上1张疯传的“黄色生日蛋糕”照片,暴露多少中国家长的可怕

热搜上1张疯传的“黄色生日蛋糕”照片,暴露多少中国家长的可怕

小椰子专栏
2026-04-10 13:03:00
159名球员票选MVP:亚历山大得票率39%居首 文班亚马意外没进前五

159名球员票选MVP:亚历山大得票率39%居首 文班亚马意外没进前五

罗说NBA
2026-04-10 22:00:23
突发!特斯拉新款 Model Y 发布,有点离谱

突发!特斯拉新款 Model Y 发布,有点离谱

新浪财经
2026-04-11 04:45:06
著名侨领古宣辉逝世,享年93岁

著名侨领古宣辉逝世,享年93岁

澎湃新闻
2026-04-11 10:58:26
2026-04-11 12:36:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4650文章数 37449关注度
往期回顾 全部

科技要闻

阿尔忒弥斯2号成功溅落,隔热罩惊险过关

头条要闻

牛弹琴:伊朗很悲壮 向美国提高了"要价"

头条要闻

牛弹琴:伊朗很悲壮 向美国提高了"要价"

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

浪姐7淘汰 该走的没走,不该走的走了

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

本地
游戏
旅游
房产
艺术

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

《幻想生活i》销量突破150万套之后开始进军手游平台

旅游要闻

外滩“绝世美景”!99%的人不知道,5楼免费露台,3万株杜鹃花正在盛放!入口在这里→

房产要闻

28条新规落地!好房子,终于有了“广州标准”!

艺术要闻

17位当代青年画家油画欣赏

无障碍浏览 进入关怀版