网易首页 > 网易号 > 正文 申请入驻

号称超越DeepSeek,翻车了,Llama 4被疑考试「作弊」

0
分享至

机器之心编辑部

前文:

但是,翻车来得猝不及防。

上周六,Meta 发布了最新 AI 模型系列 ——Llama 4,并一口气出了三个款,分别是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。

据官方介绍,在大模型竞技场中,它们的排名相当不赖。

就拿 Llama 4 Maverick 来说,总排名第二,成为第四个突破 1400 分的大模型。其中开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名均为第一。

然而,不少网友体验后反馈,Llama 4 似乎是一个糟糕的编码模型。

@deedydas 发帖称,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基准测试中表现不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基准测试专注于编程任务,例如代码生成和代码补全。

比如小球在旋转六边形中跳跃的测试中,Llama 4 的表现并不理想。

底下评论区的网友也纷纷表示,无论是 Scout 还是 Maverick,在实际编程中好像都不好用,即使有详细的提示也不行。

还有网友在 Novita AI 平台上测试了该模型,给出的结论是在复杂问题上有点吃力,但响应速度很快。

「它很好,但我不认为它在打败 DeepSeek R1 和 V3...也许 Llama 4 Behemoth 会更强大。」

Google Deepmind 工程师 Susan Zhang 也在 X 上质疑, Llama4 在 lmsys 上怎么得分这么高?

「是不是为 lmsys 定制了一个模型?」

为什么官方提供的排名结果和用户的体验大相径庭呢?

据科技媒体 TechCrunch 报道,Meta 新 AI 模型基准测试存在误导性。

尽管 Maverick 在 LM Arena 测试中排名第二,但不少研究人员发现,公开可下载的 Maverick 与托管在 LM Arena 上的模型在行为上存在显著差异。LM Arena 上的版本似乎使用了大量表情符号,并给出了极为冗长的回答。


https://x.com/techdevnotes/status/1908851730386657431

Nathan Lambert 也分享了一张图片,里面是两个 AI 模型(Llama 4 和另一个模型)回答同一个问题的对比。问题是:「Nathan Lambert 是谁?」

图片里 Llama 4 的回答非常长,啰啰嗦嗦讲了一大堆,而且充满了表情符号和感叹号。


https://x.com/natolambert/status/1908893136518098958

Meta 在公告中提到,LM Arena 上的 Maverick 是「实验性聊天版本」,与此同时官方 Llama 网站上的图表也透露,该测试使用了「针对对话优化的Llama 4 Maverick」。

LM Arena 作为衡量 AI 模型性能的指标一直存在争议。尽管如此,AI 公司通常不会为提高 LM Arena 分数而定制模型,至少没有公开承认过。

将模型针对基准测试进行优化、保留优化版本,然后发布一个「普通」版本的问题在于,这使得开发者难以准确预测模型在特定场景下的表现,存在误导性。理想情况下,尽管基准测试存在不足,但它们至少可以提供一个模型在多种任务上的优缺点的概况。



https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/

https://x.com/deedydas/status/1908749257084944847

https://x.com/techdevnotes/status/1908851730386657431

https://x.com/ai_for_success/status/1908915996707913989

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CCTV5+直播,成都捍卫榜首,王子铭更适合首发,重庆摆铁桶阵反击

CCTV5+直播,成都捍卫榜首,王子铭更适合首发,重庆摆铁桶阵反击

替补席看球
2026-03-18 15:43:49
两个突发大新闻,世界格局巨变!

两个突发大新闻,世界格局巨变!

君临财富
2026-03-18 17:58:50
美防长发出战争威胁,若真敢开战将会比抗美援朝付出的伤亡会更大

美防长发出战争威胁,若真敢开战将会比抗美援朝付出的伤亡会更大

小小科普员
2026-03-18 16:37:22
全网都在调侃瞿颖的笑话,只有盒马连夜给菠菜贴标签

全网都在调侃瞿颖的笑话,只有盒马连夜给菠菜贴标签

手工制作阿歼
2026-03-18 14:49:43
亨利:就算阿森纳最终拿下四冠王,英超冠军依然最关键

亨利:就算阿森纳最终拿下四冠王,英超冠军依然最关键

懂球帝
2026-03-17 21:29:13
马筱梅既要给汪宝办满月,又要给汪宝办百日宴,还隔空通知了公婆

马筱梅既要给汪宝办满月,又要给汪宝办百日宴,还隔空通知了公婆

八斗小先生
2026-03-18 11:49:21
陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

三公子娱乐丫
2025-05-17 17:59:45
两会结束仅1天,国家广电总局动手整治,张凯丽的心愿终于实现

两会结束仅1天,国家广电总局动手整治,张凯丽的心愿终于实现

梨花黛娱
2026-03-18 15:33:51
从垄断95%到仅剩2.3%,日本的崩溃循环,中国亲手按下终止键

从垄断95%到仅剩2.3%,日本的崩溃循环,中国亲手按下终止键

老谢谈史
2026-03-18 17:33:49
张凌赫李现瘦身前后判若两人,宋威龙吴磊基本没变

张凌赫李现瘦身前后判若两人,宋威龙吴磊基本没变

花间悦语
2026-03-18 13:19:21
如果不差钱,退休后首选广州这3个地方久居,物价低还舒服

如果不差钱,退休后首选广州这3个地方久居,物价低还舒服

童童聊娱乐啊
2026-03-18 14:38:23
硬刚美以!无视美国警告,西班牙解除驻以色列大使,降级外交关系

硬刚美以!无视美国警告,西班牙解除驻以色列大使,降级外交关系

兵说
2026-03-17 11:52:46
发现一个奇怪的现象:百病缠身的人,都是经常被身边人无限消耗

发现一个奇怪的现象:百病缠身的人,都是经常被身边人无限消耗

富书
2026-03-17 13:19:16
最后期限已过!祝融号没被唤醒,但天问一号还在传回火星照片!

最后期限已过!祝融号没被唤醒,但天问一号还在传回火星照片!

火星一号
2026-03-16 01:00:53
全世界都被特朗普耍了?打击伊朗只是幌子,真实目的终于浮出水面

全世界都被特朗普耍了?打击伊朗只是幌子,真实目的终于浮出水面

夕阳渡史人
2026-01-30 09:47:08
78年前的老报纸,以色列建国时,人民日报是这样报道的

78年前的老报纸,以色列建国时,人民日报是这样报道的

梦在深巷aqa
2026-03-17 13:52:26
爱泼斯坦私人飞机驾驶员:克林顿曾坐过26次,空姐像糖果脱衣舞娘

爱泼斯坦私人飞机驾驶员:克林顿曾坐过26次,空姐像糖果脱衣舞娘

百晓生谈历史
2026-03-17 20:58:28
清远马拉松一选手赛途中心脏骤停送医,今天凌晨离世,官方证实

清远马拉松一选手赛途中心脏骤停送医,今天凌晨离世,官方证实

上游新闻
2026-03-18 16:54:11
台专家:不用打了,大陆力量已打入岛内,可轻松瘫痪岛内武装了!

台专家:不用打了,大陆力量已打入岛内,可轻松瘫痪岛内武装了!

卷史
2026-03-17 23:31:52
涉黄的宝宝巴士被重罚!网友:成人巴士!

涉黄的宝宝巴士被重罚!网友:成人巴士!

广告案例精选
2026-03-18 08:45:56
2026-03-18 19:31:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3276文章数 11108关注度
往期回顾 全部

科技要闻

直连微信!腾讯QClaw宣布大规模放量

头条要闻

拉里贾尼遇害细节:死在女儿家中 行为高调暴露自身

头条要闻

拉里贾尼遇害细节:死在女儿家中 行为高调暴露自身

体育要闻

晋级2026世界杯,这届中国女篮啥水平?

娱乐要闻

郑恺苗苗晒全家福 首次公开三胎小女儿

财经要闻

“永不爆雷的宇宙大所”掌门人,自首了

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

教育
时尚
数码
手机
房产

教育要闻

重庆大米和小米RICE体系在自闭症成长教育中的应用

它才是今年春天最火的鞋子,时髦又百搭!

数码要闻

桌面AI超算新时代已来!微星20PFLOPS怪物WS300炸场!

手机要闻

生产力拉满!OPPO Find N6解锁移动办公新体验

房产要闻

13万㎡的楼盘,违建7.5万㎡!海南这个开发商胆真大啊!

无障碍浏览 进入关怀版