网易首页 > 网易号 > 正文 申请入驻

2025 年大模型盘点:DeepSeek 时刻、Llama 失宠、刷榜泛滥...

0
分享至


测试集发布之后,它就无效了

首先,感谢 minghao 老司机,阅篇无数,精准推荐

本文基于老司机推荐的年终盘点《The State Of LLMs 2025: Progress, Problems, and Predictions》


https://magazine.sebastianraschka.com/p/state-of-llms-2025

这篇文章的原始作者叫 Raschka,长期在 Substack 输出技术内容。他的书被翻译成 9种 语言,被多所大学用作教材

以下这些,是他对 2025 年大模型领域的观察和判断,在这里我做了一些重写&删改

推理模型、RLVR 与 GRPO 之年

2025 年 1 月,DeepSeek R1 发布,带来两个简单但重要的发现:

  • • 模型先说思路再给答案,准确率更高

  • • 这种习惯,可以用强化学习养成

短回答 vs. 包含中间推理步骤的长回答 DeepSeek 时刻

R1 引发关注,原因有三

其一
R1 以开源权重发布,性能与当时最好的闭源模型相当

其二
R1 论文让投资者和媒体重新审视 2024 年 12 月的 DeepSeek V3 论文

结论被修正:训练顶级模型的成本可能接近 $500万,而非 $5000万$5亿


DeepSeek V3 论文中的训练成本估算

R1 的补充材料显示:在 V3 基础上训练 R1,只需额外 $29.4万


R1 训练成本估算

当然,$500万 只算了最终跑模型的算力,不包括研究人员薪资和实验成本

其三
论文同时提出了 RLVR + GRPO 这套新方法

此前不管是 SFT 还是 RLHF,都绑定在人工标注上,成本高、规模有限

RLVR 换了个思路:如果答案本身可以被验证,就不需要人来判断对错

数学和代码是最典型的场景,但这个逻辑可以延伸


强化学习应用时机概览 可验证奖励的简单示例

今年大模型开发基本被 RLVR 和 GRPO 主导。几乎每个主要玩家,都在 R1 之后发布了推理版本的模型

大模型发展重心演变

如果要简洁总结每年大模型开发的重点:

  • 2022 RLHF + PPO

  • 2023 LoRA SFT

  • 2024 中期训练

  • 2025 RLVR + GRPO

历年大模型开发的重点领域,这是累积的

那么下一步是什么?

Raschka 认为 2026 年会看到更多 RLVR 相关的工作。目前 RLVR 主要用在数学和代码上,下一步是扩展到其他领域

另一个方向是「解释评分」:不光看最终答案对不对,还要评判中间推理过程。这在过去叫「过程奖励模型」(PRM),但目前还不太成功

Raschka 对 2026、2027 的预判:

  • 2026 RLVR 扩展 + 更多推理时扩展

  • 2027 持续学习

推理时扩展的意思是:训练完之后,在生成答案时花更多时间和算力

这是一个权衡:延迟、成本、准确率之间的取舍。但在某些场景,准确率比延迟更重要,极端的推理扩展完全值得

比如 DeepSeekMath-V2 在数学竞赛基准上达到了金牌级表现


两种推理时扩展方法的结合:自一致性和自优化

持续学习是指在新数据上训练模型,不从头来。挑战是灾难性遗忘:学新东西会忘旧东西。今年同行讨论很多,但还没有实质性突破

2. GRPO:年度研究宠儿

在大模型昂贵的时代,学术研究不太好做。但仍能做出重要发现

近年典型例子:LoRA(2021)用于参数高效微调,DPO 用于无奖励模型对齐


基于代码的 LoRA 教程 基于代码的 DPO 教程

今年的亮点是 GRPO。虽然出自 DeepSeek R1 论文,但对研究者来说仍是激动人心的一年:RLVR 和 GRPO 概念上有趣,实验成本也还能接受

今年大模型文献中出现了很多 GRPO 的改进,后来被纳入顶级大模型的训练流程

Olmo 3 采用的改进:

零梯度信号过滤、主动采样、Token 级别损失、无 KL 损失、更高的裁剪阈值、截断重要性采样、无标准差归一化

DeepSeek V3.2 采用的改进:

领域特定 KL 强度的 KL 调优(数学为零)、重新加权的 KL、离策略序列掩码、保持 top-p / top-k 的采样掩码、保持原始 GRPO 优势归一化

Raschka 确认这些修改在实践中影响巨大。采用后,坏的更新不再破坏训练,不再需要定期重载检查点


从零开始 GRPO 训练代码的部分结果 3. 大模型架构:分叉口?

顶级模型仍然用经典的 Decoder 风格 Transformer

但今年,开源大模型基本趋同于:MoE(混合专家)层 + 至少一种效率优化的注意力机制(GQA、滑动窗口注意力或 MLA)

更激进的效率优化也出现了,目标是让注意力机制的复杂度随序列长度线性增长。比如 Qwen3-Next 和 Kimi Linear 中的 Gated DeltaNets,以及 NVIDIA Nemotron 3 中的 Mamba-2 层


大模型架构大比较

Raschka 的预测:至少在顶级性能方面,未来几年仍会继续用 Transformer

但效率和工程优化会越来越多,如 Gated DeltaNet 和 Mamba 层。在大模型的规模下,从财务角度看这是必然

替代方案也有。比如文本扩散模型,目前属于实验性。但 Google 宣布将发布 Gemini Diffusion 模型,不追求顶级建模质量,但会非常快,适合低延迟场景

两周前开源的 LLaDA 2.0 发布,最大的 1000亿 参数版本是迄今最大的文本扩散模型,与 Qwen3 30B 持平

4. 推理扩展和工具调用之年

通过扩展训练数据和架构来改进大模型,是一个持续有效的公式

但今年,这不再是唯一有效的方法

GPT 4.5(2025 年 2 月)就是例子。传言它比 GPT 4 大得多,但单纯扩展不是最明智的方向。GPT 4.5 的能力可能比 GPT 4 更好,但增加的训练预算被认为「性价比不高」

相反,更好的训练流程(更多关注中期和后训练)以及推理扩展,驱动了今年的大部分进展

另一个主要改进来自工具调用

幻觉是大模型最大的问题之一。幻觉率在持续改善,Raschka 认为这很大程度上归功于工具调用

比如被问到 1998 年世界杯谁赢了,大模型可以用搜索引擎查,从可靠网站抓取信息,而不是靠记忆

OpenAI 的 gpt-oss 是今年早些时候发布的专门为工具调用开发的开源模型之一


gpt-oss 模型卡论文的表格

遗憾的是,开源生态还没完全跟上,很多工具仍默认以非工具调用模式跑这些大模型

一个原因是这是新范式,工具需要适配。另一个原因是安全:给大模型不受限制的工具调用权限,可能出问题

Raschka 认为,未来几年本地跑大模型时启用工具调用会越来越普遍

5. 年度词汇:刷榜

如果要选一个描述今年大模型开发的词,那就是「刷榜」(benchmaxxing)

刷榜意味着强烈关注推高排行榜数字,有时到了 benchmark 表现本身成为目标的程度

典型例子是 Llama 4,在很多 benchmark 上得分极高。但用户和开发者上手后发现,这些分数并不反映实际能力

如果测试集是公开的,它就不是真正的测试集

现在的问题是,测试集数据不仅成为训练语料的一部分,还经常在大模型开发过程中被直接优化


2019 年 Do ImageNet Classifiers Generalize to ImageNet? 论文的注释图

过去,即使公开测试集上的分数被夸大,至少模型排名还是保持的

在大模型开发中,这已经到了 benchmark 数字不再是性能可靠指标 的地步

但 Raschka 认为 benchmark 仍是必要门槛:如果一个大模型在某 benchmark 上得分低于 X,就知道它不行。但如果得分高于 X,这并不意味着它比另一个得分高于 X 的大模型好多少

另一个问题是:图像分类器只有一个任务。但大模型用于翻译、总结、写代码、头脑风暴、解数学题等等。评估起来复杂得多

除了在实践中尝试和不断生成新 benchmark,暂时没有解决方案

6. AI 用于编程、写作和研究

Raschka 把大模型视为给某些职业的人「超能力」的工具。用好的话,可以显著提高生产力,消除日常工作中的摩擦

编程

Raschka 仍然自己写大部分他关心的代码

比如设置一个大模型训练脚本,他会自己实现并仔细检查训练逻辑。这是为了确保它在做正确的事,同时保持自己在这个任务上的专长

但他现在用大模型来添加周围更琐碎的代码,比如 argparse 样板


使用提示词「给 training-script.py 所有超参数选项添加 argparse」

他也越来越依赖大模型来发现问题、建议改进或检验想法

大模型对核心专长以外的任务极其有价值。他最近写了工具来提取和备份 Substack 文章为 Markdown,大模型还帮他清理了网站的 CSS

诀窍是识别何时用、何时不用

代码库

大模型写代码越来越好了,但 Raschka 不认为代码会变得短暂或过时

大模型给人们超能力来生成某些编程项目。但纯大模型生成的代码库,不能取代专家精心打造的代码库

一个了解好的设计模式和权衡、研究过、见过、构建过很多平台的专家全栈 Web 开发者,能够构建比一个随机人员提示大模型更好的平台

精彩的是:现在一个随机人员也能构建一个平台,即使不是最好的

但用大模型只能走这么远,平台质量可能会停滞

技术写作和研究

Raschka 不认为大模型会让技术写作过时

写一本好的技术书需要数千小时和对主题的深刻熟悉。核心工作仍然依赖人类的判断和专业知识


大模型帮 Raschka 在之前的文章中发现并修复错误

从读者角度,用大模型学习一个话题对快速问题和入门级解释效果不错。但当你想建立更深层理解时,这种方法很快变得混乱

到那时,不如跟随专家设计的结构化学习路径

也许经验法则是:

  • • 如果这篇文章完全由人类生成,它本可以进一步改进

  • • 如果这篇文章可以仅通过提示大模型生成,那它可能不够新颖和深入

大模型与倦怠

Raschka 认为有一个较少被讨论的缺点:如果模型做所有事情而人类主要是监督,工作可能开始感觉空洞

有些人喜欢专注于管理系统和编排工作流。但对于喜欢亲自动手做事的人,这种工作模式可能加速倦怠

与一个难题搏斗最终看到它成功,有一种特殊的满足感。当大模型一次搞定答案时,没有同样的感觉

也许一个类比是国际象棋

国际象棋引擎几十年前就超过了人类棋手,但人类玩的职业国际象棋仍然活跃且繁荣

现代棋手用 AI 来探索不同想法、挑战直觉、以前所未有的深度分析错误

这是思考 AI 在其他智力工作中如何使用的有用模型

用得好,AI 可以加速学习、扩展单个人能合理承担的范围。应该更多地把它当作伙伴而不是替代品

但如果 AI 被用来完全外包思考和编程,它有破坏动机和长期技能发展的风险


大模型降低了入门门槛,让程序员更有生产力 7. 优势:私有数据

大模型的通用编程、知识问答和写作能力在持续提升

这很大程度上是因为扩展仍然带来正向投资回报

但这在某个时候会开始停滞,除非不断发明新的训练方法和架构

大模型目前能解决很多通用任务和相对容易的问题。但要在某些行业深入扎根,需要更多领域专业化

大模型提供商很想获得高质量的领域专用数据。目前看来这将是一个挑战

大多数被接洽的公司都拒绝了数据交易,正是因为数据是专有的、是其业务差异化的核心

把有价值的专有数据卖给 OpenAI 或 Anthropic,可能有点短视


有用的行业和数据类型示例

目前大模型开发在规模上成本高昂且有挑战,这就是为什么只有少数大公司开发顶级大模型

但 Raschka 认为大模型开发正变得越来越商品化

大模型开发者频繁在雇主之间轮换,最终会被更大的金融机构、生物技术公司等有预算的企业雇用,开发受益于其私有数据的内部大模型

这些大模型甚至不需要完全从头训练;许多顶级大模型如 DeepSeek V3.2、Kimi K2 和 GLM 4.7 正在发布,可以被适配和进一步后训练

8. 2025 年的意外与 2026 年预测 2025 年值得注意的意外

  1. 1. 几个推理模型已在主要数学竞赛中达到金牌水平(OpenAI 的一个未命名模型、Gemini Deep Think、开源的 DeepSeekMath-V2)。Raschka 不惊讶这发生,但惊讶这在 2025 年就发生了,而不是 2026 年

  2. 2. Llama 4(或整个 Llama 系列)在开源社区几乎完全失宠,Qwen 在流行度上超过了 Llama

  3. 3. Mistral AI 在其最新旗舰 Mistral 3 模型中用了 DeepSeek V3 架构(2025 年 12 月宣布)

  4. 4. 除了 Qwen3 和 DeepSeek R1/V3.2,开源顶级模型竞赛中出现了许多其他竞争者:Kimi、GLM、MiniMax、Yi

  5. 5. 更便宜、高效的混合架构已成为领先实验室的更大优先级(Qwen3-Next、Kimi Linear、Nemotron 3),而不是由独立实验室开发

  6. 6. OpenAI 发布了开源权重模型(gpt-oss)

  7. 7. MCP 已成为 Agent 风格大模型系统中工具和数据访问的标准。Raschka 预期生态系统在 2025 年会保持更碎片化,至少到 2026 年

2026 年预测
  1. 1. 很可能会看到一个工业规模的、面向消费者的扩散模型,用于廉价、可靠、低延迟的推理,Gemini Diffusion 可能会先行

  2. 2. 开源社区会缓慢但稳定地采用本地工具调用和越来越多 Agent 能力的大模型

  3. 3. RLVR 会更广泛地扩展到数学和代码以外的领域 (比如化学、生物等)

  4. 4. 传统 RAG 会逐渐不再是文档查询的默认解决方案。开发者会更多依赖更好的长上下文处理,尤其是随着更好的「小型」开源模型出现

  5. 5. 大量大模型 benchmark 和性能进展将来自改进的工具和推理时扩展,而非训练或核心模型本身 。看起来大模型在变得更好,但这主要是因为周围应用在改进

如果 2025 年有一个元教训,那就是大模型的进展不是关于单一突破

改进是通过多条独立路径在多个方面进行的:架构调整、数据质量改进、推理训练、推理扩展、工具调用

同时,评估仍然困难,benchmark 不完美,对何时以及如何使用这些系统的良好判断仍然至关重要


新年快乐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一张照片看哭无数人:你看到的,不一定是真相

一张照片看哭无数人:你看到的,不一定是真相

有态度网友ytd2993
2026-05-30 01:06:26
余嘉豪结束留洋首季:当选队内常规赛MVP 下季有望征战西甲

余嘉豪结束留洋首季:当选队内常规赛MVP 下季有望征战西甲

醉卧浮生
2026-06-01 18:05:45
原价26.7万的增程式电车,二手暴打1.8折,保值率惨不忍睹

原价26.7万的增程式电车,二手暴打1.8折,保值率惨不忍睹

闲搞机
2026-05-30 11:05:41
麻将搭子的团结有多离谱?网友:为了凑局,啥事都干得出来

麻将搭子的团结有多离谱?网友:为了凑局,啥事都干得出来

夜深爱杂谈
2026-06-01 19:25:47
菲律宾总统大选最新民调出炉,前总统杜特尔特之女、现副总统莎拉仍领先,但她正面临弹劾审判

菲律宾总统大选最新民调出炉,前总统杜特尔特之女、现副总统莎拉仍领先,但她正面临弹劾审判

新浪财经
2026-05-31 15:55:18
苹果第二波降价来了,iPhone 16 Pro 突然杀回来了

苹果第二波降价来了,iPhone 16 Pro 突然杀回来了

搞机小帝
2026-06-01 00:04:05
1996年,他与董建华竞选特首失败,没想到,却成了香港头号包租公

1996年,他与董建华竞选特首失败,没想到,却成了香港头号包租公

鉴史录
2026-06-01 12:59:01
驴友夫妇痛骂国内医院,8天花1471元?3年后美国车祸花60余万美元

驴友夫妇痛骂国内医院,8天花1471元?3年后美国车祸花60余万美元

贱议你读史
2026-05-31 16:19:12
晚宴结束,美防长离开香会,临走前立下2条规矩,崔天凯反将一军

晚宴结束,美防长离开香会,临走前立下2条规矩,崔天凯反将一军

流史岁月
2026-06-01 19:30:03
21次精准命中!CNN曝AI接管战争,俄军“百公里安全区”一夜崩塌

21次精准命中!CNN曝AI接管战争,俄军“百公里安全区”一夜崩塌

小小科普员
2026-06-01 16:20:46
又一起吃他汀猝死!医生再三强调:夏季吃他汀的人,要警惕这4点

又一起吃他汀猝死!医生再三强调:夏季吃他汀的人,要警惕这4点

健康科普365
2026-06-01 21:55:03
王菲看演唱会,却把俞飞鸿送上了热搜?两个“老阿姨”的状态

王菲看演唱会,却把俞飞鸿送上了热搜?两个“老阿姨”的状态

童叔不飙车
2026-05-31 23:06:29
凭什么一集20分钟,却让观众直呼“比40集的剧还下饭”?

凭什么一集20分钟,却让观众直呼“比40集的剧还下饭”?

阿废冷眼观察所
2026-05-31 21:38:11
“这才是正常毕业生的就业现状”,6个男生晒出路,大方承认平庸

“这才是正常毕业生的就业现状”,6个男生晒出路,大方承认平庸

熙熙说教
2026-06-01 19:30:50
何超莲晒一家四口全家福,三太陈婉珍脸色蜡黄状态不好,窦骁缺席

何超莲晒一家四口全家福,三太陈婉珍脸色蜡黄状态不好,窦骁缺席

娱乐团长
2026-06-01 21:00:25
因为没钱,社会上已经出现了4大“反常现象”,看看你碰到了没?

因为没钱,社会上已经出现了4大“反常现象”,看看你碰到了没?

细说职场
2026-04-26 14:29:20
男星杨迪爬深圳梧桐山,同行朋友被救护车拉走上热搜,“觉得是市区里的山,没有做特别准备”

男星杨迪爬深圳梧桐山,同行朋友被救护车拉走上热搜,“觉得是市区里的山,没有做特别准备”

大象新闻
2026-06-01 18:59:06
人不会无缘无故患糖尿病!研究发现:得糖尿病的人,离不开这5点

人不会无缘无故患糖尿病!研究发现:得糖尿病的人,离不开这5点

芹姐说生活
2026-06-01 19:10:38
“别绿茶了,你就是个中年妇女!”女家长晒心机自拍,被戳破打脸

“别绿茶了,你就是个中年妇女!”女家长晒心机自拍,被戳破打脸

番外行
2026-05-25 15:15:10
能源危机:印度“不能承受之重”

能源危机:印度“不能承受之重”

上观新闻
2026-05-31 19:14:08
2026-06-02 02:20:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
457文章数 53关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

特朗普:是时候查金库了

头条要闻

特朗普:是时候查金库了

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

时尚
手机
家居
亲子
公开课

夏天裤子不用多买,阔腿裤一整个夏天都能穿,日常出行好打理

手机要闻

华为nova 16系列支持5A速度!传输、流畅度领先友商17 Pro

家居要闻

自信舒展 高背座椅

亲子要闻

向太坦言给孙女买衣服从不超100块:真的豪门从不靠名牌养娃

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版