网易首页 > 网易号 > 正文 申请入驻

无人关心的 Meta AI,好像真有点说法。

0
分享至


绕过元宇宙的弯路,放弃出道即巅峰的 Llama,怒烧几百亿美金组建超级智能实验室。。。

在 Meta 的 AI 战略彻底颠覆以后,他们的首款通用模型 Muse Spark 耗时一年,终于崭新出炉了。

而在第一时间上手实测之后,世超感觉,之前的 Meta 是拉完了都排不上号的主,靠着钞能力一路猛追,可能真爬上了榜单的人上人。

根据官方发布的跑分结果,Muse Spark 在多模态、文字推理、健康和智能体领域,和 Opus 4.6,Gemini 3.1 Pro 等旗舰模型相比的确各有千秋。


虽然这个健康领域挺诡异的,很少见这类 Benchmark 被搬上通用模型的台面。。。

而在即将推出的 “ 沉思模式 ” 下,Muse Spark 在一些高难测试集,如 Humanity's Last Exam 里的思考推理表现,也和 Gemini 3.1 Deep Think,GPT 5.4 Pro 差不多。


但也有人并不看好 Meta 这一波。毕竟官方博客披露信息太少了,案例都没几个。模型闭源,又没有发布 API,Meta 也有可能故技重施,在跑分上造假。这模型好不好用,难说。

所以,为了看看这里面到底有几分水分,世超把 Muse Spark 拉来,和 Gemini 3.1 pro,Opus 4.6,GPT 5.4 Thinking 做了个简单横向对比。

目前 Muse Spark 只开放了 Instant 和 Thinking 两种模式,前者快速回答,后者有一些思考和推理能力,我们这回主要测能力更强的 Thinking。


咱们先从 Muse Spark 主推的多模态开始。比如,世超给它一张超市货架图,让它推荐几款减脂期零食。

从回答里看得出,Muse Spark 对图片的理解能力很强,细节也能抓到位,文字阅读无障碍,推荐得有理有据,结果可靠。


但要只是上面这种程度,所有模型都能做得到,Muse Spark 只能算是及格。下面这些上难度的玩法,才是 Muse Spark 表演的开始。

在官方博客里,Meta 提供了一个一张图变数独游戏的案例。只要给出一张图片,提示词 “ 把这张图变成网页数独游戏 ”,就能获得一个可玩数独。


我们也做了个类似的,亲测好用。不止交互很丝滑,答案也能准确计算好,页面风格和提供的图片完全一致。


感觉 Muse Spark 的多模态不像其它模型,只是识图看个大概,剩下的全凭自由发挥。它是真懂事,不仅能按照你提供的图片像素级复刻,甚至可以准确推断出背后的操作使用逻辑。

下面这个例子就更猛了。世超只是随手截了一个 win11 系统计算器图给它,提示 “ 把这张图片变成一个可用计算器 ”,Muse Spark 一口气做出来的 demo,每个按键都好使,计算准确,界面和系统妈生计算器一模一样。


作为对比,GPT 5.4 Thinking 界面风格类似,但有乱码;Gemini 3.1 pro 完全无视了原图;只有真神 Opus 4.6 维持了一贯的高水准。


而在据说 Muse Spark 并不擅长的代码方面,我们实测也有惊喜。

咱先试了试前端网页设计实现。至少在这一块,Muse Spark 的审美属于一流水平。

页面功能实现得比较完整,部分链接按钮可点击,虽然具体内容存在一些杜撰,粗略看起来还是很舒服的。


整体和 Opus 4.6 比起来有点差距,但比起不知所云的 GPT,还是强了很多。


算法代码方面,我们挑选了几道 leetcode 高难题。

最震惊的还是在 65 号题上,虽然所有模型都通过了测试,但 Muse Spark 给出了时间和空间上,都更加优雅的解法。。。

作为对比,Opus 4.6 和 GPT 5.4 Thinking 的时间复杂度排名仅 50%,而 Gemini 3.1 pro 的空间复杂度只击败了 13% 的提交答案。


再以 10 号题为例,Muse Spark 和 Opus 给出的依然是最优解;GPT 通过了测试,但解法不够好;Gemini 3.1 pro 则直接出现 bug,失败了。


测到这里,Muse Spark 的表现已经远远超过世超的预期了。表现和 Opus 打的有来有回,反而 GPT 和 Gemini 显得有点不够看。

不会吧不会吧,难道我们都误会了,亚历山大王真有点东西?

再看看简单的文字测试。不得不说,Muse Spark 思路相当清晰,Instant 模式回答几个经典逻辑问题足够用,3 秒必达。


而作为对比,Gemini 和 Opus 的表现也是稳定且准确。唯独 GPT,上个月新发布的版本 5.4 Thinking,还在这种简单逻辑题上翻车,拉完了。


最后,在健康领域,所有模型的回答都中规中矩,Muse Spark 无功无过。


在简单试用完一圈之后,世超感觉大模型界三足鼎立的局面,真要被打破了。

而 Meta 目前放出来的,甚至还只是一个较轻量,试试水,可能在未来开源的版本。。。

官方表示,他们正在 Muse Spark 的基础上,继续对整个技术栈加大投资力度,从研究,数据,模型训练到基础设施,规模全面扩张。

在模型训练技术细节上,Meta 提到了三个关键点:预训练、强化学习、和测试时推理(test-time reasoning)。


前两个过程各位差友已经很熟悉了,但即使这是每个大模型的必经之路,Meta 依然背靠 Instagram 和 Facebook,有着得天独厚的数据优势。在数据这方面,可能只有谷歌能和 Meta 相提并论。

而在测试时推理这个阶段,Meta 主要做的是,让模型在回答问题之前,先思考一阵,但不能耗太多 token。

这一点世超在 GPT Thinking 系列上深有体会。这些模型经常想起来没完,结果变得又臭又长,信息密度极低。

而 Meta 选择在训练的过程中,对过长的思考进行惩罚。把长推理压缩成尽量少 token 的前提下,又能让模型回答准确,达成了微妙的平衡。


最后,回过头看,一次又一次失败,Meta 居然从来没退出这场比赛,最终再次归位前沿阵地,这故事太燃了。

但在另一边,Claude Mythos Preview 已经强到另一个维度了。相比之下,Muse Spark 这一波,像是才刚补上了之前缺的课。

所以,世超只能说,期待 Meta 加入这场模型大乱斗,让小扎也有机会,瘫坐在小小的办公椅上吧。

撰文:莫莫莫甜甜

编辑:江江 & 面线

美编:焕妍

图片、资料来源:

感谢宅宅老师提供的跨国支援!

莫莫实测

Muse Spark 官方博客、X


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
睁眼瞎吹!关键战公然漏判,裁判一句话搪塞,活塞冤死了

睁眼瞎吹!关键战公然漏判,裁判一句话搪塞,活塞冤死了

佳佳说奇事故事
2026-05-14 18:24:46
场上效果比先发中锋好出太多,活塞在G6中应该直接让他先发出场?

场上效果比先发中锋好出太多,活塞在G6中应该直接让他先发出场?

稻谷与小麦
2026-05-14 22:28:36
美股AI光互联龙头盘前狂飙25%

美股AI光互联龙头盘前狂飙25%

财闻
2026-05-14 20:11:26
《歌手2026》终版确认:首发9位歌手,2位国际,刘宪华缺席

《歌手2026》终版确认:首发9位歌手,2位国际,刘宪华缺席

音乐钢琴娱乐咖
2026-05-14 11:55:06
重庆奔驰撞人后续!身份曝光是当地名人,33岁死者漂亮,有仨小孩

重庆奔驰撞人后续!身份曝光是当地名人,33岁死者漂亮,有仨小孩

北纬的咖啡豆
2026-05-14 09:39:21
陈宝国自曝:拍大宅门时,何赛飞不问青红皂白,直接给我一嘴巴子

陈宝国自曝:拍大宅门时,何赛飞不问青红皂白,直接给我一嘴巴子

她时尚丫
2026-05-12 23:32:24
4只皮皮虾1035元,官方回应是否“带客吃回扣”

4只皮皮虾1035元,官方回应是否“带客吃回扣”

中国新闻周刊
2026-05-09 19:38:06
特朗普走普京来,所为何事?

特朗普走普京来,所为何事?

凤眼论
2026-05-14 21:23:56
中午11时,中美磋商准时开始,特朗普发现:中国比他想象中更厉害

中午11时,中美磋商准时开始,特朗普发现:中国比他想象中更厉害

共工之锚
2026-05-14 12:33:37
张柏芝现身 4S 店,为刚考取驾照的大儿子 Lucas 提国产新车

张柏芝现身 4S 店,为刚考取驾照的大儿子 Lucas 提国产新车

老吴教育课堂
2026-05-14 17:43:56
张本智和最可恨的,不是想赢国乒,而是把仇恨当投名,彻底忘了本

张本智和最可恨的,不是想赢国乒,而是把仇恨当投名,彻底忘了本

老皢尾声体育解说
2026-05-13 17:23:08
刚刚,无锡地铁发布重要提醒!

刚刚,无锡地铁发布重要提醒!

江南晚报
2026-05-14 21:05:05
真要断代了!网友哭诉爷辈的孙辈仅他女儿这支,90%大概率无子嗣

真要断代了!网友哭诉爷辈的孙辈仅他女儿这支,90%大概率无子嗣

火山詩话
2026-05-14 11:16:52
58岁狄仁杰路过一肉铺,见女子切肉从不换手,立刻吩咐,速回府

58岁狄仁杰路过一肉铺,见女子切肉从不换手,立刻吩咐,速回府

瓜哥的动物日记
2026-05-07 11:45:08
三过草地的女红军当农民,朱老总怒斥当地领导:你知道她是谁吗?

三过草地的女红军当农民,朱老总怒斥当地领导:你知道她是谁吗?

史之铭
2026-05-07 20:06:03
库里盼至少征战20年!大概率与勇士签1+1合同 格林愿降薪助队引援

库里盼至少征战20年!大概率与勇士签1+1合同 格林愿降薪助队引援

罗说NBA
2026-05-14 06:48:29
刚向191国发出通知,大陆转头放行台当局,郑丽文公开力挺一中

刚向191国发出通知,大陆转头放行台当局,郑丽文公开力挺一中

千羽解读
2026-05-14 10:17:47
横店短剧大撤退:停工、降薪,与被挤掉的饭碗

横店短剧大撤退:停工、降薪,与被挤掉的饭碗

36氪
2026-05-14 11:26:48
24+19+20!这就是骑士给他6230万美金大合同的原因

24+19+20!这就是骑士给他6230万美金大合同的原因

世界体育圈
2026-05-14 14:27:48
医生呼吁:70岁以上老人,宁可吃热乎馒头喝稀粥,也别碰这些!

医生呼吁:70岁以上老人,宁可吃热乎馒头喝稀粥,也别碰这些!

芹姐说生活
2026-05-13 19:15:32
2026-05-14 22:43:00
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
10753文章数 489637关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

女子称关闭支付宝支付功能被扣款捐赠184万 多方回应

头条要闻

女子称关闭支付宝支付功能被扣款捐赠184万 多方回应

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

手机
亲子
旅游
数码
公开课

手机要闻

苹果“液态玻璃”饱受争议 却斩获重量级设计大奖

亲子要闻

监控下的幼儿园小可爱,主动帮老师搬桌开门,逻辑超在线

旅游要闻

519中国旅游日|2026年“5·19中国旅游日”倒计时5天

数码要闻

联想2026款拯救者Y7000P / Y9000P / R9000P游戏本配置确认

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版