网易首页 > 网易号 > 正文 申请入驻

九章云极的“效率之问”:如何用24亿参数,逼近70亿模型性能?

0
分享至


作者 | 王启隆 责编 | 梦依丹

出品 | CSDN(ID:CSDNnews)

最近 AI 圈子里,大家聊得最多的,可能不是又出了什么惊天动地的新模型,反而是另一种更普遍的情绪:焦虑。

算力焦虑。

大家都在谈论规模。更大的模型,更强的算力集群。这当然没错,力大砖飞,简单有效。但当所有人都挤在同一条路上时,这条路必然会变得拥堵且昂贵。算力成本,已经从一个技术问题,变成了一个战略问题,甚至是生存问题。

今年初 DeepSeek R1 的消息,让全世界兴奋了一下。它证明了通过复杂的训练范式,比如强化学习,无需陷入参数无限堆砌的误区,就能显著提升模型的推理和工具使用能力。

这说明通往山顶的路不止一条。

这件事,也引发了另一个更深层的问题:如果说 DeepSeek 的路径,是用更聪明的“训练方法”去优化一个既定的“模型”,那么,有没有可能,在更早的阶段,在模型架构本身、在数据处理的源头,就已经存在着一条被忽视的“效率之路”?

这是一条更底层、更枯燥、也更难走的路。它不追逐时髦的概念,而是沉潜到技术最根本的环节,去抠每一个环节的能效比。愿意走这条路的公司寥寥无几,毕竟,它的成果少了些噱头感。。

但你顺着这条线索梳理不难发现,仍有部分团队在该领域持续深耕。九章云极 DataCanvas 就是其中尤为突出的一家。

近期,九章云极频繁地在 ACL、EMNLP 这些顶会上发表多篇专业论文,连起来看会发现一个非常清晰的技术哲学。他们似乎在系统性地回答一个问题:在通往高性能模型的路上,有多少“成本”是可以被技术和工程的智慧所节省下来的?

发动机的设计:参数效率

首先,九章云极把目光对准了模型这个“发动机”本身。

现在很多团队做模型,有点像在造肌肉车,简单粗暴地堆大排量。九章云极的一篇关于 YuLan-Mini 的研究,则是在尝试造一台 F1 赛车的引擎。参数量不大,只有 24 亿,但目标是逼近 70 亿参数模型的性能。


论文链接:https://aclanthology.org/2025.acl-long.268.pdf

这背后是对模型训练稳定性的极致追求。小模型想发挥出超越自身规模的性能,训练过程就必须非常激进,比如使用很高的学习率。而这又极易导致训练崩溃。为了解决这个矛盾,他们用了一套组合拳,从参数初始化方法,到一种叫“重参数化”的技术来吸收梯度变化,本质上是在给这台高转速引擎设计更可靠的冷却和润滑系统。

更有意思的是他们对“燃料”的选择,也就是数据。他们不只是把海量数据投喂进去,而是设计了一套精细的数据流水线。其中一个亮点是,在预训练阶段就引入了“形式化数学”这种高度逻辑化的数据。

这说明,他们认为模型的强大,不应该只来自于对海量文本的统计学模仿,还应该来自于对底层逻辑规则的理解。这就像教一个孩子,你不能只让他背唐诗,还得让他做数学题。前者塑造语感,后者锻炼逻辑。

最终,这个 24 亿参数的模型,用 48 张卡就完成了训练。这个数字本身,就体现了一种效率观。但这不仅仅是为了在预训练阶段省钱。这更是在为下一步,也就是智能体时代的真正核心技术——强化学习,打下一个坚实的基础。

强化学习,是训练模型做出复杂决策、与环境交互的核心方法,但它的训练过程出了名的昂贵和“数据饥渴”。如果你的基础模型本身就是一个“油老虎”,参数臃肿、逻辑不清,那么后续的强化学习训练成本将会是天文数字。

九章云极的这个思路,本质上是在优化“智能体的总拥有成本”。通过算法创新,先打造一个参数效率和逻辑能力都极高的基础模型,相当于给未来的智能体一个“节能”的内核。这使得后续的强化学习过程,可以用更少的算力、在更短的时间内,达到更好的训练效果。这是一种深思熟虑的、着眼于最终工程化落地的技术选择,其重要性在智能体训练中愈发凸显。

推理的成本:从“蛮力”到“巧劲”

发动机造好了,怎么让它在路上跑得更省油?如果说基础模型是智能体的“躯体”,那么如何决策和行动,就是智能体的“灵魂”。这正是强化学习技术的核心用武之地。

智能体的行动,本质上是一个与现实世界不断交互、学习、优化的循环。它需要感知环境、做出判断、执行动作,然后根据结果反馈来调整下一步策略。九章云极在这方面发表的系列论文,清晰地展现了他们如何通过强化学习的创新,去打磨智能体与现实交互的每一个环节,让这个过程从“蛮力试错”走向“四两拨千斤”。

第一步:让智能体“看清”世界,而不是“看花”

智能体与现实交互,第一步是信息输入。在数字世界里,这个“现实”往往就是海量的文档和数据。当上下文窗口动辄达到上百万 token,智能体面临的首要问题就是“信息过载”。

九章云极《CAFE》这篇论文,解决的就是这个问题。它没有采用复杂的外部处理模块,而是深入模型内部,利用 Transformer 架构中那些天然擅长信息检索的“注意力头”,作为智能体内部的“侦察兵”。通过一个“粗筛”和“精读”的两步策略,帮助智能体在信息海洋中快速定位关键证据。这本质上,是用一种巧妙的机制设计,优化了强化学习中至关重要的“感知”(Perception)环节。一个能快速看清问题本质的智能体,才有可能做出正确的决策,从而极大提升后续强化学习的训练效率。


论文链接:https://arxiv.org/pdf/2505.10063

第二步:让智能体“学会”思考,而不只是“被动”学习

看清世界之后,智能体需要决策。这是强化学习的主战场。国际上,像 DeepMind 等顶尖机构,在强化学习上的研究往往气势磅礴,通过海量算力进行大规模的模拟和探索,让智能体在数百万次试错中“涌现”出智能。这毫无疑问是前沿的,但成本也是巨大的。

九章云极的系列研究,则展现了另一种可比肩国际水平的、更侧重工程化和效率的思路。

他们的《R1-Searcher++》论文,就是这种思路的集中体现。它同样使用强化学习,但核心目标是训练智能体形成一种“判断力”和“记忆力”。“判断力”指的是,智能体要自己学会,什么时候可以依赖自己的内部知识,什么时候必须向外部环境(如搜索引擎)求助。这解决了智能体与现实交互中的一个核心成本问题:减少不必要的动作。


论文链接:https://arxiv.org/pdf/2505.17005

而论文名字里的“++”,则指向了更深层的“记忆机制”。智能体通过与环境交互学到的新知识,会被吸收、内化,成为自己知识体系的一部分。这使得智能体能够持续成长,而不是在同一个地方反复跌倒。

这种对智能体“决策成本”和“知识积累”的精细优化,是典型的工程化思维。它与国际上更偏向“暴力美学”的强化学习探索形成了鲜明对比和互补。后者在探索智能的上限,而九章云极则着力降低智能的门槛,让训练一个聪明的、能与现实高效交互的智能体,变得更加可行。

更有意思的是,在《SimpleDeepSearcher》这篇论文里,他们甚至展示了对强化学习本身的“反思”。他们发现,对于某些特定任务,与其用复杂的强化学习去“训练”,不如用高质量的“教学数据”去“教会”模型。这种在不同技术路径间灵活选择、永远追求最高投入产出比的务实态度,恰恰是强化学习从实验室走向产业应用最需要的能力。


论文链接:https://arxiv.org/pdf/2505.16834

总而言之,这一系列成果,清晰地勾勒出一条通往“智能体时代”的技术路线:以强化学习为核心,通过创新的算法和务实的工程化能力,让智能体在与现实世界的交互中,变得更高效、更聪明、也更“便宜”。

看不见的地基:平台与工程

这些关于算法和数据效率的研究,都建立在一个更核心的底层支撑之上:一个稳定、高效的AI基础设施平台。在讨论强化学习时,这一基础的重要性怎么强调都不为过。

纸上谈兵容易,但要把这些精细的优化策略,在真实的训练任务中跑起来,不出问题,本身就是巨大的工程挑战。强化学习的训练过程,比传统的监督学习要脆弱得多。它充满了随机性,实验结果难以复现,训练过程随时可能因为一个微小的参数变化而崩溃。

若缺少一个工业级的、为强化学习这种“精细活”深度优化的平台,绝大多数关于智能体的设想,终究只能停留在论文层面,难以落地。

值得注意的是,前述相关研究的实验,均是在九章云极自家的智算云平台上完成的。而这个平台并没有完全封闭。比如,他们向清华大学的“AI for Science”黑客松提供开源平台,学生和科研人员可以在该平台上进行各类算力实践。这可以看作是一种对自身平台能力的“公开路演”和“压力测试”。

而支撑这一切的,是更早期的布局。他们在2025年4月授权的一个关于“分布式强化学习训练方法”的专利,以及随后发布的全球首个实现工程化落地的强化学习云平台,这些都不是孤立的事件。它们共同指向了一个事实:九章云极在很早之前,就已着手系统性地解决“如何让强化学习变得可靠和可用”这个核心工程问题

从底层的智算调度,到上层的训练框架,再到为高校场景优化的“Aladdin”这类算力服务,他们构建的是一整套让强化学习,特别是智能体训练,能够顺利进行的“生命支持系统”

模型会迭代,算法会更新,但一个稳定、高效、低成本,并且积累了大量复杂任务工程经验的基础设施平台,才是最难被快速复制的东西。它就像一个F1车队的后勤维修体系和风洞实验室,决定了你的赛车能稳定跑完全程,并且不断迭代优化,而不是在某个弯道突然爆缸。

回到最初的问题。在一个被“规模”定义一切的时代,为什么要去走一条看起来更慢、更难的“效率之路”?

现在看来,这可能不是一个快慢的问题,而是一个选择问题。是选择把自己的天花板,建立在自己能买到多少张 GPU 上,还是建立在自己对技术理解的深度上。

“普惠算力”,这个词已经被说得太多了。

但剥开各种宏大的叙事,它的内核可能很简单:就是通过技术和工程上的不懈努力,持续降低 AI 的使用成本,无论是训练成本,还是推理成本。

这背后,没有太多激动人心的故事可讲。它不是关于一次性发布一个“王炸”模型,而是关于在无数个不起眼的环节里,一点一滴地优化、改进、提升效率。

在 AI 行业陷入规模内卷,九章云极通过系统性技术优化与工程创新,证明了一条聚焦效率的可行路径——从模型设计、数据处理到基础设施,全方位降低 AI 门槛,为智能体时代提供更可持续的技术基础‌。这一路径虽不炫目,却能从根本上解决行业痛点,推动 AI 技术的普惠化与产业化。

这或许不是一个最能吸引眼球的故事,但它可能是一个更坚实,也更可持续的故事。( 投稿或寻求报道:zhanghy@csdn.net )


【活动分享】2025 年是 C++ 正式发布以来的 40 周年,也是全球 C++ 及系统软件技术大会举办 20 周年。这一次,C++ 之父 Bjarne Stroustrup 将再次亲临「2025 全球 C++及系统软件技术大会」现场,与全球顶尖的系统软件工程师、编译器专家、AI 基础设施研究者同台对话。

12 月 12-13 日,由 CSDN 与奇点智能研究院联合举办的「2025 全球C++及系统软件技术大会」共设立现代 C++ 最佳实践、架构与设计演化、软件质量建设、安全与可靠、研发效能、大模型驱动的软件开发、AI 算力与优化、异构计算、高性能与低时延、并发与并行、系统级软件、嵌入式系统十二大主题,共同构建了一个全面而立体的知识体系,确保每一位参会者——无论是语言爱好者、系统架构师、性能优化工程师,还是技术管理者——都能在这里找到自己的坐标,收获深刻的洞见与启发。详情参考官网:https://cpp-summit.org/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
若中日再次爆发战争,结局会如何?俄罗斯和美国看法一致​

若中日再次爆发战争,结局会如何?俄罗斯和美国看法一致​

寻途
2025-11-04 21:16:03
美国最大电信运营商拟裁员约1.5万人

美国最大电信运营商拟裁员约1.5万人

界面新闻
2025-11-14 09:09:42
是时候说出真相!抗美援朝有五个冷知识很少提及,超乎我们的想象

是时候说出真相!抗美援朝有五个冷知识很少提及,超乎我们的想象

阿光的技巧课堂
2025-11-11 19:56:12
最高法:对严重危害国家安全、滥杀无辜、残害未成年人等罪行极其严重、人民群众深恶痛绝的犯罪分子,坚决依法适用死刑

最高法:对严重危害国家安全、滥杀无辜、残害未成年人等罪行极其严重、人民群众深恶痛绝的犯罪分子,坚决依法适用死刑

极目新闻
2025-11-13 15:59:11
刘备巡视兵营,见一将士深夜擦拭兵器:此人不可重用,速遣离营

刘备巡视兵营,见一将士深夜擦拭兵器:此人不可重用,速遣离营

荔枝人物记
2025-11-11 17:14:20
缅北KK园区头目佘智江被押解回国:登机前微笑,下机时腿软

缅北KK园区头目佘智江被押解回国:登机前微笑,下机时腿软

极目新闻
2025-11-13 19:58:52
钱再多有什么用?张智霖袁咏仪如今现状,给所有明星夫妻提了个醒

钱再多有什么用?张智霖袁咏仪如今现状,给所有明星夫妻提了个醒

小椰的奶奶
2025-11-14 10:03:10
洋姜不是姜,是天然胰岛果,在中国被沦为咸菜,都快吃绝种了

洋姜不是姜,是天然胰岛果,在中国被沦为咸菜,都快吃绝种了

泠泠说史
2025-11-11 15:43:31
城管砸烂“老兵烧烤”,叫嚣让他随便告,凌晨领导急电:闯大祸了

城管砸烂“老兵烧烤”,叫嚣让他随便告,凌晨领导急电:闯大祸了

悬案解密档案
2025-10-22 09:48:53
OpenAI:ChatGPT推出群聊功能

OpenAI:ChatGPT推出群聊功能

界面新闻
2025-11-14 10:15:11
中日混血、知名职业麻将选手公开近照,粉丝惊叹

中日混血、知名职业麻将选手公开近照,粉丝惊叹

随波荡漾的漂流瓶
2025-11-12 18:15:04
不抄苹果,华为Mate80 ProMax改名成功,定位升级,本月发布

不抄苹果,华为Mate80 ProMax改名成功,定位升级,本月发布

老孙说科技
2025-11-14 09:36:20
全红婵捐出43598.6元!网友:她捐给了曾经的自己......

全红婵捐出43598.6元!网友:她捐给了曾经的自己......

极目新闻
2025-11-13 13:31:29
重大利好出现,A股终于如期大涨!

重大利好出现,A股终于如期大涨!

君临财富
2025-11-13 16:12:46
高市为出兵台海铺路,支持率飙到82%,话音刚落,解放军进逼日本

高市为出兵台海铺路,支持率飙到82%,话音刚落,解放军进逼日本

大白话瞰世界
2025-11-13 17:41:56
岳云鹏没想到,自己的演唱会竟然让一个沉寂了20几年的歌手唱火了

岳云鹏没想到,自己的演唱会竟然让一个沉寂了20几年的歌手唱火了

乐悠悠娱乐
2025-11-13 16:23:06
都是亲王为何会有高下之分?实际上,清代的亲王可以分为四个档次

都是亲王为何会有高下之分?实际上,清代的亲王可以分为四个档次

户外钓鱼哥阿旱
2025-11-13 11:06:23
孙中山小女儿孙婉晚年在澳门走投无路,邓小平得知下令:予以照顾

孙中山小女儿孙婉晚年在澳门走投无路,邓小平得知下令:予以照顾

红色先驱
2025-11-11 18:27:12
夺冠夜老板陈海涛赢麻了,五笔收入入账,众将士奖金必不可少!

夺冠夜老板陈海涛赢麻了,五笔收入入账,众将士奖金必不可少!

篮球国度
2025-11-13 09:16:50
曾医生日常容颜,没有美颜的样子才是真实的

曾医生日常容颜,没有美颜的样子才是真实的

诗意世界
2025-11-12 20:52:54
2025-11-14 11:03:00
CSDN incentive-icons
CSDN
成就一亿技术人
26096文章数 242181关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

牛弹琴:中国的愤怒在升级 中方官员措辞火药味很浓

头条要闻

牛弹琴:中国的愤怒在升级 中方官员措辞火药味很浓

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

涉及房价投资!国新办介绍10月经济运行

汽车要闻

BJ40增程元境智行版上市 限时焕新价19.48万元

态度原创

健康
房产
数码
本地
公开课

金振口服液助力科学应对呼吸道疾病

房产要闻

突发!三亚放出今年起价最高宅地!

数码要闻

华为新款非凡大师手表明日开启预售 紫金配色更显尊贵

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版