网易首页 > 网易号 > 正文 申请入驻

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

0
分享至

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

Meta最新基础模型Llama 4发布36小时后,评论区居然是这个画风:

  • 失望,非常失望
    不知道他们后训练怎么搞的,总之不太行
    在[各种测试]2中失败

还被做成表情包调侃,总结起来就是一个“差评如潮”。

具体来看,大家的抱怨主要集中在代码能力。

最直观的要数经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉下去了。

反映在榜单上,成绩也相当割裂。

发布时的官方测评(LiveCodeBench)分数和在大模型竞技场表现明明都很不错。

但到了各种第三方基准测试中,情况大多直接逆转,排名末尾。

让人不由得怀疑,这个竞技场排名到底是数据过拟合,还是刷票了。

就在Llama 4即将发布前几天,Meta AI研究主管Joelle Pineau在工作8年之后突然宣布离职,总之就是不太妙。

Llama 4怎么了?

大模型关注者们火热实测吐槽之际,一则有关Llama 4的匿名爆料,突然引起轩然大波:

有网友称自己已向Meta GenAI部门提交提交辞职,并要求不要署名在Llama 4的技术报告上。

原贴发布在海外留学求职交流平台一亩三分地,在国内也引起很多讨论。

此爆料尚未得到证实,但有人搬出Meta GenAI负责人Ahmad Al-Dahle的帖子,至少能看出在Llama 4大模型竞技场里运行的是特殊版本模型。

还有Meta前员工借此话题贴出2024年11月的一项研究,指出从Llama 1开始数据泄露的问题就存在了。

也不只是编程能力一个方面有问题,在EQBench测评基准的的长文章写作榜中,Llama 4系列也直接垫底。

榜单维护者_sqrkl说明了具体情况。

测试非常简单,模型需要先完成一个短篇小说的头脑风暴、反思并修改写作计划,最终每轮写1000字,重复8轮以上。

由Claude-Sonnet 3.7来当裁判,先对每个章节单独打分,再对整个作品打分。

Llama 4的低分表现在写到后面开始大段的内容重复,以及写作非常公式化。

对此结果,有一个猜想是之前的版权诉讼让Meta删除了网络和书籍数据,使用了更多的合成数据。

在这场诉讼中,许多作家发现自己的作品可能被用于AI训练,还到伦敦的Meta办公室附近发起抗议。

Llama 4发布后的种种,让人联想到年初的匿名员工爆,有网友表示当初只是随便看看,现在却开始相信了:

在这条爆料中,Deepseek v3出来之后,训练中的Llama4就显得落后了,中层管理的薪水都比DeepSeek V3的训练成本都高,Meta内部陷入恐慌模式。

让人不由得感叹,DeepSeel-R1横空出世仅仅两个月时间,却像过了几辈子。


[1]https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/
[2]https://www.1point3acres.com/bbs/thread-1122600-1-1.html
[3]https://x.com/suchenzang/status/1909070231517143509
https://x.com/TheAhmadOsman/status/1908833792111906894

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳楼市,爆了!

深圳楼市,爆了!

睿见投资
2026-06-10 12:03:53
回国了我才敢说:朝鲜,是我去过的所有国家中,最被看轻的

回国了我才敢说:朝鲜,是我去过的所有国家中,最被看轻的

贱议你读史
2026-05-31 17:07:26
罗素对幸福的定义,领先我们100年!

罗素对幸福的定义,领先我们100年!

听哲学
2026-05-26 13:36:20
办世界杯竟成烫手山芋,2030年仅两个申办国,为啥没人抢?

办世界杯竟成烫手山芋,2030年仅两个申办国,为啥没人抢?

叹为观止易
2026-06-08 14:22:53
俄外长热烈欢迎菲律宾,体面但膈应!中国民众:烦人,但翻不了天

俄外长热烈欢迎菲律宾,体面但膈应!中国民众:烦人,但翻不了天

阿库财经
2026-06-10 12:16:07
英格兰队内讧!阿森纳王牌质疑队友能力,欧洲杯黄金搭档彻底闹掰

英格兰队内讧!阿森纳王牌质疑队友能力,欧洲杯黄金搭档彻底闹掰

澜归序
2026-06-10 06:17:04
尼克斯总决赛G4媒体日:布伦森谈父子并肩 阿奴诺比回应隔扣文班

尼克斯总决赛G4媒体日:布伦森谈父子并肩 阿奴诺比回应隔扣文班

罗说NBA
2026-06-10 05:59:37
沃勒尔:很难理解世界杯的高昂票价;德国要当很难被击败的队

沃勒尔:很难理解世界杯的高昂票价;德国要当很难被击败的队

懂球帝
2026-06-10 07:14:28
美国军队痛苦反思,伊朗战争,美国上了三个国家的当

美国军队痛苦反思,伊朗战争,美国上了三个国家的当

揭秘历史的真相
2026-06-09 20:49:08
微胖的女人更有魅力

微胖的女人更有魅力

蓝色海洋009
2026-05-31 19:45:12
C罗晒世界杯备战训练照:一步一步来

C罗晒世界杯备战训练照:一步一步来

懂球帝
2026-06-10 04:23:05
打不下瑷珲城,就拿海兰泡的中国人撒气?沙俄其实是在下一盘大棋

打不下瑷珲城,就拿海兰泡的中国人撒气?沙俄其实是在下一盘大棋

历史摆渡
2026-05-17 19:45:03
日本用行动告诉菲律宾:就算中国不援助也没关系,日本有办法!

日本用行动告诉菲律宾:就算中国不援助也没关系,日本有办法!

阿讯说天下
2026-06-10 11:30:49
日本两家大厂,灯灭了,产线停了

日本两家大厂,灯灭了,产线停了

阿振观点
2026-06-10 13:31:27
29 岁郑州小伙凌晨自杀,独子遗言曝光,全网泪崩!

29 岁郑州小伙凌晨自杀,独子遗言曝光,全网泪崩!

骑着蜗牛追导弹85
2025-04-12 12:06:33
16斤的明朝世子金印,原本应该是18斤,少掉的部分早被劈成碎片

16斤的明朝世子金印,原本应该是18斤,少掉的部分早被劈成碎片

收藏大视界
2026-06-09 21:33:47
台媒曝汪小菲太聪明,能带孩子回北京却留台,原来他留了2个后招

台媒曝汪小菲太聪明,能带孩子回北京却留台,原来他留了2个后招

壹月情感
2025-02-24 23:37:06
亚洲最大室内儿童主题乐园年底竣工

亚洲最大室内儿童主题乐园年底竣工

新京报
2026-06-10 12:09:09
太糟心了!反感持续升级!国内商家对印度游客的排斥会持续升温!

太糟心了!反感持续升级!国内商家对印度游客的排斥会持续升温!

哄动一时啊
2026-06-09 11:32:08
53岁硬汉回应007选角:别把邦德搞成“觉醒”代言人

53岁硬汉回应007选角:别把邦德搞成“觉醒”代言人

追星雷达站
2026-06-09 02:34:47
2026-06-10 14:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12771文章数 176489关注度
往期回顾 全部

科技要闻

凌晨突发!Anthropic神级模型向你开放

头条要闻

"猪二代"在养殖场要处死小猪:第一次操作时全身发抖

头条要闻

"猪二代"在养殖场要处死小猪:第一次操作时全身发抖

体育要闻

2026世界杯,我们看什么?

娱乐要闻

850万请跑男,公款追星肥了谁的口袋

财经要闻

大盘股IPO终结行情盛宴?背后真相来了

汽车要闻

赛豆科技发布AIVA品牌 首款概念车亮相/量产版新车今年内发布

态度原创

家居
健康
手机
房产
艺术

家居要闻

空间微调 移形换境

粽子、汤圆……常见粘食大盘点!

手机要闻

干掉充电宝 荣耀X80 Pro Max搭载11000mAh电池

房产要闻

天价罚单压顶、巨亏、强执…这家巨头老板却在豪赌三亚城更!

艺术要闻

2026年中国美术学院,研究生毕业油画作品选(四)

无障碍浏览 进入关怀版