网易首页 > 网易号 > 正文 申请入驻

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

0
分享至

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

Meta最新基础模型Llama 4发布36小时后,评论区居然是这个画风:

  • 失望,非常失望
    不知道他们后训练怎么搞的,总之不太行
    在[各种测试]2中失败

还被做成表情包调侃,总结起来就是一个“差评如潮”。

具体来看,大家的抱怨主要集中在代码能力。

最直观的要数经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉下去了。

反映在榜单上,成绩也相当割裂。

发布时的官方测评(LiveCodeBench)分数和在大模型竞技场表现明明都很不错。

但到了各种第三方基准测试中,情况大多直接逆转,排名末尾。

让人不由得怀疑,这个竞技场排名到底是数据过拟合,还是刷票了。

就在Llama 4即将发布前几天,Meta AI研究主管Joelle Pineau在工作8年之后突然宣布离职,总之就是不太妙。

Llama 4怎么了?

大模型关注者们火热实测吐槽之际,一则有关Llama 4的匿名爆料,突然引起轩然大波:

有网友称自己已向Meta GenAI部门提交提交辞职,并要求不要署名在Llama 4的技术报告上。

原贴发布在海外留学求职交流平台一亩三分地,在国内也引起很多讨论。

此爆料尚未得到证实,但有人搬出Meta GenAI负责人Ahmad Al-Dahle的帖子,至少能看出在Llama 4大模型竞技场里运行的是特殊版本模型。

还有Meta前员工借此话题贴出2024年11月的一项研究,指出从Llama 1开始数据泄露的问题就存在了。

也不只是编程能力一个方面有问题,在EQBench测评基准的的长文章写作榜中,Llama 4系列也直接垫底。

榜单维护者_sqrkl说明了具体情况。

测试非常简单,模型需要先完成一个短篇小说的头脑风暴、反思并修改写作计划,最终每轮写1000字,重复8轮以上。

由Claude-Sonnet 3.7来当裁判,先对每个章节单独打分,再对整个作品打分。

Llama 4的低分表现在写到后面开始大段的内容重复,以及写作非常公式化。

对此结果,有一个猜想是之前的版权诉讼让Meta删除了网络和书籍数据,使用了更多的合成数据。

在这场诉讼中,许多作家发现自己的作品可能被用于AI训练,还到伦敦的Meta办公室附近发起抗议。

Llama 4发布后的种种,让人联想到年初的匿名员工爆,有网友表示当初只是随便看看,现在却开始相信了:

在这条爆料中,Deepseek v3出来之后,训练中的Llama4就显得落后了,中层管理的薪水都比DeepSeek V3的训练成本都高,Meta内部陷入恐慌模式。

让人不由得感叹,DeepSeel-R1横空出世仅仅两个月时间,却像过了几辈子。


[1]https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/
[2]https://www.1point3acres.com/bbs/thread-1122600-1-1.html
[3]https://x.com/suchenzang/status/1909070231517143509
https://x.com/TheAhmadOsman/status/1908833792111906894

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台湾GDP靓眼   跃居亚洲第三

台湾GDP靓眼 跃居亚洲第三

跟着老李看世界
2026-02-01 11:44:55
缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

小虎新车推荐员
2026-02-01 05:45:13
印度一小伙,被朋友骗进医院割掉生殖器,手术后,还遭朋友逼婚…

印度一小伙,被朋友骗进医院割掉生殖器,手术后,还遭朋友逼婚…

有书
2026-01-31 16:40:03
日本秋叶原咖啡店关门,门口用多国语言表示感谢,但是中文却只写“请勿入内

日本秋叶原咖啡店关门,门口用多国语言表示感谢,但是中文却只写“请勿入内

日本物语
2026-01-31 20:34:19
斯塔默上海行,身边为何是这位“中文十级”的英国女星?

斯塔默上海行,身边为何是这位“中文十级”的英国女星?

都市快报橙柿互动
2026-01-31 17:54:37
三方交易!亨特和施罗德互换东家

三方交易!亨特和施罗德互换东家

体坛周报
2026-02-01 14:33:14
追加两项罪名杨兰兰全部不认!日常穿1.2万香奈儿外套,惹怒警察

追加两项罪名杨兰兰全部不认!日常穿1.2万香奈儿外套,惹怒警察

阿纂看事
2026-01-31 10:27:53
爱泼斯坦案最后一批文件曝光!特朗普被提到数百次,还牵出一众大佬

爱泼斯坦案最后一批文件曝光!特朗普被提到数百次,还牵出一众大佬

上观新闻
2026-02-01 05:00:09
韦东奕正式获聘北京大学长聘副教授

韦东奕正式获聘北京大学长聘副教授

界面新闻
2026-02-01 07:58:06
千里大堤溃于蚁穴,银行信用,溃于呼伦贝尔?

千里大堤溃于蚁穴,银行信用,溃于呼伦贝尔?

细雨中的呼喊
2026-01-31 15:43:54
缅甸这场戏,快要演完了

缅甸这场戏,快要演完了

寰宇大观察
2026-01-31 20:00:03
金价大跳水后,男子斥资20多万元抄底买入200克,称“不在意短期涨跌”,还有人称“肯定会回调”,工行、农行、交行公告

金价大跳水后,男子斥资20多万元抄底买入200克,称“不在意短期涨跌”,还有人称“肯定会回调”,工行、农行、交行公告

每日经济新闻
2026-02-01 10:38:04
华尔街为啥铁了心打爆黄金多头?

华尔街为啥铁了心打爆黄金多头?

公子豹
2026-02-01 13:33:10
NBA三方大交易评级出炉!公牛A骑士B+ 国王引进亨特仅评C

NBA三方大交易评级出炉!公牛A骑士B+ 国王引进亨特仅评C

罗说NBA
2026-02-01 13:16:11
黄仁勋台北“夜宴”:汇聚近40位台企高管,还有1位陆企董事长!

黄仁勋台北“夜宴”:汇聚近40位台企高管,还有1位陆企董事长!

芯智讯
2026-01-31 22:45:50
狱中离世14年后获无罪,当事人律师发声

狱中离世14年后获无罪,当事人律师发声

澎湃新闻
2026-02-01 11:55:05
老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

快科技
2026-02-01 11:55:44
全球唯一一只不属于中国的熊猫,叫欣欣,吃不到竹子吃的是仙人掌

全球唯一一只不属于中国的熊猫,叫欣欣,吃不到竹子吃的是仙人掌

西楼知趣杂谈
2026-01-31 13:18:43
多家银行已停止提供贷款!科技巨头被曝或裁员3万人

多家银行已停止提供贷款!科技巨头被曝或裁员3万人

新浪财经
2026-02-01 13:44:41
15万个AI建了个朋友圈吐槽人类,100万人围观Moltbook后傻眼了:原来我们对AI一无所知

15万个AI建了个朋友圈吐槽人类,100万人围观Moltbook后傻眼了:原来我们对AI一无所知

AppSo
2026-01-31 20:13:22
2026-02-01 17:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

男子年会抽中10万元彩票和苹果17ProMax 公司人士回应

头条要闻

男子年会抽中10万元彩票和苹果17ProMax 公司人士回应

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

健康
教育
时尚
本地
公开课

耳石症分类型,症状大不同

教育要闻

10秒钟学会绝对值

伊姐周六热推:电视剧《年少有为》;电视剧《有罪之身》......

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版