网易首页 > 网易号 > 正文 申请入驻

我用Meta“华人天团”打造的新模型,一张图复刻了一个“豆包App”

0
分享至


智东西
作者 陈骏达
编辑 云鹏

Meta的“牛油果”模型,终于熟了!

智东西4月9日报道,今天,在成立9个月后,Meta超级智能实验室(MSL)发布了其首款模型Muse Spark(内部代号牛油果)。这是一个原生的多模态推理模型,支持工具使用、视觉思维链和多智能体编排。

在大模型测评平台Artificial Analysis上,Muse Spark的智能指数直接从Llama 4 Maverick的18分,跳到了52分,介于Claude Sonnet 4.6和Claude Opus 4.6之间,算是进入第一梯队了。


我们第一时间对模型做了体验,上传了一张豆包App的截图,要求Muse Spark复刻。可以看到Muse Spark的回复风格比较口语化,甚至有一股“豆包味儿”,这可能是因为这一模型主要面向C端用户。


Muse Spark的生成速度很快,效果也不错,基本1:1复刻了豆包的页面,连图像都还原了。


Muse Spark还通过了小球弹跳测试。有网友感叹道,时隔1年多,Meta终于发了一款能通过六边形小球弹跳测试的大模型,这一历史性时刻值得记录。


Muse Spark是ScaleAI创始人、Meta首席AI官汪滔(Alexandr Wang)加入Meta 10个月后,交出的首份答卷。


这一结果来的并不容易,此前,在Llama 4遭遇史诗级滑铁卢后,Meta大刀阔斧地重组了AI团队,唱衰大语言模型的杨立昆也最终离开。

汪滔称,Meta在过去9个月从零开始打造AI技术栈,基础设施、架构、数据管线都是全新的,Muse Spark正是这些努力的成果。

加入Meta的不少华人AI大牛纷纷转发了这一成果,包括赵晟佳、毕树超、余家辉、Jason Wei等等。值得一提的是,MSL团队的华人浓度很高,在转发新模型的Meta研究员中,从领导到基层员工,许多都是华人。


另据Top华人科创社的报道,Meta还迎来了一位新的华人大牛,前蚂蚁集团RL实验室首席科学家吴翼加盟了Meta MSL,直接向Meta副总裁和MSL联合负责人Nat Friedman汇报。


Muse Spark是MSL Muse系列模型中的首款,未来还会有更多该系列模型发布。目前Muse Spark已开始逐步推送至Meta旗下的应用和Meta.ai网页端,不过仍有用户反映自己使用的模型仍是Llama 3。


同时,“开源”两个字在相关博客中,一次也未被提及。

体验链接:meta.ai

一、多模态、医疗健康表现突出,智能体和编程仍是短板

从基准测试结果来看,Muse Spark在多模态感知、推理、医疗健康和智能体等领域的表现处于行业第一梯队。不过,MSL承认这一模型在长程智能体系统和编程工作流方面性能尚有差距。

以下是Muse Spark完整的基准测试成绩。需要注意的是,Meta在这里采用了一些有“图表诈骗”嫌疑的数据呈现方式。乍一看,Muse Spark的所有成绩都被标蓝,似乎全面领先,但实际上这一模型在图中的20项基准测试中,拿到的SOTA数量为4个


在多模态能力维度,Muse Spark的表现较有竞争力,在美国大模型圈没有被拉开明显代差,基本和GPT-5.4处在同一水平线上。Muse Spark的表现也符合其原生多模态大模型的定位。

作为一款将部署于Meta旗下众多社交媒体、面向广大个人用户的模型,Muse Spark在用户高频关注的医疗健康领域同样没有掉队。在HealthBench Hard与MedXpertQA(多模态)两项评测中均斩获SOTA,显然对此进行了重点优化。

Muse Spark本次还发布了“沉思模式(Contemplating mode)”,该模式可协调多个智能体并行推理。这使得Muse Spark能够与Gemini Deep Think和GPT Pro等前沿模型的极限推理模式相媲美。

开启“沉思模式”后,Muse Spark在复杂任务中的能力得以提升,比如它在HLE“人类最后的考试”基准测试中,取得了58%的正确率在“前沿科学研究”基准测试中取得了38%的正确率。


二、所需算力资源比Llama 4少一个量级,采用新型强化学习技术栈

跑分之外,这一模型的新定位和背后技术,也值得关注。

Meta称,Muse Spark是迈向个人超级智能的第一步,它能够理解用户所处的世界,多模态能力和医疗健康就是当前的两个重点。

Muse Spark从底层架构层面,整合了跨领域和工具的视觉信息,在识别、定位方面的能力不错。这些功能结合起来,可以实现各种交互式体验。

例如,用户可以上传一张游戏画面截图,然后让Muse Spark把它变成一个能真正互动的游戏。


或是告知Muse Spark自己有高胆固醇的问题,并让Muse Spark基于多模态能力和医疗知识,做一个动态的食物推荐页面。


Meta在博客中分享的demo也仅仅涉及多模态和医疗健康领域,这或许意味着Muse系列模型最终的用途,仍然是服务于扎克伯格的个人超级智能愿景,而不是单纯地追求智能上限。

在技术方面,MSL大幅度提升了算力利用率,与之前的模型Llama 4 Maverick相比,Muse Spark用少一个数量级以上的计算资源就能达到相同的性能。


同时,MSL还在强化学习阶段采用了新技术栈,在大规模强化学习中带来平稳、可预测的性能提升。


三、一手实测:精准识别食物热量,还给Meta AI眼镜造了个新品

Muse Spark发布后,我们进行了更多实测。

Muse Spark的多模态能力确实不错,我们上传了一个啤酒瓶的照片,让它分析热量。Muse Spark一眼就看出了啤酒的品牌、大小,甚至连原图中肉眼都难以分辨的酒精度都准确识别出来了。


它对于热量的分析则来自搜索,还把热量转换成了我们日常吃的食物,并给出要消耗这些热量对应的运动量,是比较实用的。


我们紧接着让Muse Spark给Meta的AI眼镜做一个宣传网页,没给任何参考。可以看到,在思考过程中Muse Spark主动调用AI生图模型打造了对应的产品图片,然后编写完整页面代码,整个过程耗时2分钟左右,效果如下:


这一网页的完成度不错,直接给Meta设计出了一款搭载Muse Spark的新品AI眼镜。模型还自夸道,这是一个旗舰级的官网,不是普通的落地页,是按Apple Vision Pro发布会标准做的。

Muse Spark还可用于购物推荐。我们试着让它搜索一款汽车雨刮器,几秒钟就拿到了好几个选项,并且有对每款产品优势劣势的分析和最终购买建议。


结语:牛油果熟了,但Meta的“个人超级智能”仍需耐心

作为Meta超级智能实验室的首秀,Muse Spark已经展现出跻身第一梯队的水准,足够让人期待未来的Muse系列后续产品。

不过,扎克伯格想要的“个人超级智能”,目前还停留在医疗健康问答、网页复刻、购物推荐这些相对可控的场景里。距离真正改变数亿用户的交互方式,还有很长的路要走。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
和儿子微信聊天的“妈妈”其实是杀人嫌犯!装修工强奸未遂杀害女子,用她手机欺骗家属

和儿子微信聊天的“妈妈”其实是杀人嫌犯!装修工强奸未遂杀害女子,用她手机欺骗家属

潇湘晨报
2026-04-08 12:05:19
告别过街难!深圳一人行天桥5月底开放通行

告别过街难!深圳一人行天桥5月底开放通行

南方都市报
2026-04-09 17:26:24
江语晨《浪姐7》离场真相:前夫突然夺走孩子引关注!

江语晨《浪姐7》离场真相:前夫突然夺走孩子引关注!

玲姐人生百态
2026-04-09 13:59:00
陈丽华三个子女如何评价迟重瑞?他人很好,尊重母亲,也尊重我们

陈丽华三个子女如何评价迟重瑞?他人很好,尊重母亲,也尊重我们

谈史论天地
2026-04-09 13:49:03
今天才知道,黄皮洋葱和紫皮洋葱的区别,记住以后别再瞎买了

今天才知道,黄皮洋葱和紫皮洋葱的区别,记住以后别再瞎买了

邹小蘑菇
2026-04-09 10:44:44
离婚10年,再遇前妻她送外卖,我刚想掏钱,她说:儿子考上了清华

离婚10年,再遇前妻她送外卖,我刚想掏钱,她说:儿子考上了清华

千秋历史
2026-03-24 21:57:27
著名专家预言:试管婴儿寿命仅40年,那首例试管婴儿如今怎样了?

著名专家预言:试管婴儿寿命仅40年,那首例试管婴儿如今怎样了?

青梅侃史啊
2026-03-28 19:22:24
最近,微信又多了 3 个新功能

最近,微信又多了 3 个新功能

全是技能
2026-04-09 11:14:12
令人惊讶!那些喜欢嫖娼的男性,竟在某些方面存在这几个共同特征

令人惊讶!那些喜欢嫖娼的男性,竟在某些方面存在这几个共同特征

皓皓情感说
2026-04-07 23:33:28
2020年,长沙女子癌症晚期,争夺女儿40万学费,直言:我只想活着

2020年,长沙女子癌症晚期,争夺女儿40万学费,直言:我只想活着

大鱼简科
2026-04-06 11:33:07
0-2不敌巴黎后,利物浦敲定斯洛特下课底线:不进半决赛直接走人

0-2不敌巴黎后,利物浦敲定斯洛特下课底线:不进半决赛直接走人

夜白侃球
2026-04-09 09:28:39
大S一周入梦5次!小S曝仍留通讯软体持续传讯:我跟她之间的连结

大S一周入梦5次!小S曝仍留通讯软体持续传讯:我跟她之间的连结

ETtoday星光云
2026-04-09 16:25:50
发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往这3个方面越是让人佩服

发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往这3个方面越是让人佩服

LULU生活家
2026-04-09 15:09:50
历史性一刻!微软:Windows 11已知Bug全部清零

历史性一刻!微软:Windows 11已知Bug全部清零

快科技
2026-04-09 19:28:05
太难了!网传广东一工厂放假30天补贴3000元,通知称国际订单腰斩

太难了!网传广东一工厂放假30天补贴3000元,通知称国际订单腰斩

火山詩话
2026-04-09 08:51:46
阿尔瓦雷斯:昨天训练时我踢了五六个任意球,一个都没进

阿尔瓦雷斯:昨天训练时我踢了五六个任意球,一个都没进

懂球帝
2026-04-09 06:32:19
中央1号文发布,老家还有宅基地的马上做这三件事?早办早安心

中央1号文发布,老家还有宅基地的马上做这三件事?早办早安心

米果说识
2026-04-07 19:54:26
陈丽华葬礼,圈内大佬到齐,花圈摆满,马德华痛哭,白岩松也来了

陈丽华葬礼,圈内大佬到齐,花圈摆满,马德华痛哭,白岩松也来了

潮鹿逐梦
2026-04-09 11:45:00
德媒:北约酝酿在霍尔木兹海峡部署海军

德媒:北约酝酿在霍尔木兹海峡部署海军

参考消息
2026-04-09 15:33:24
美载人绕月飞船开始返回地球之旅

美载人绕月飞船开始返回地球之旅

界面新闻
2026-04-08 11:48:23
2026-04-09 21:28:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11544文章数 117027关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

白宫打击伊朗决策内幕披露:鲁比奥曾直言以计划乱扯

头条要闻

白宫打击伊朗决策内幕披露:鲁比奥曾直言以计划乱扯

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火首日,霍尔木兹仅有4艘船通过

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

健康
教育
亲子
艺术
军事航空

干细胞抗衰4大误区,90%的人都中招

教育要闻

英语如何一年从90-100上到140呢,生词少了,读长句还有困难

亲子要闻

芬兰两岁娃被幼儿园“穷人床”卡死,好条件都在监狱里?

艺术要闻

庞茂琨 2026油画写生新作

军事要闻

黎真主党发射火箭弹 回应以违反停火协议

无障碍浏览 进入关怀版