网易首页 > 网易号 > 正文 申请入驻

苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

0
分享至




机器之心报道

编辑:Panda

昨天,苹果一篇新论文在 arXiv 上公开然后又匆匆撤稿。原因不明。

不过观看其提交历史,可以看到该论文在 12 月 6 日(UTC)就已被提交到 arXiv,到 11 号已经过去了 5 天,公开上线之后却又被光速撤稿,这不由得地让人好奇究竟发生了什么。



不过好在该论文有一个 v1 版本已经被互联网记录,所以我们也能打开这篇论文一探究竟。

论文中,苹果揭示了他们开发的一个基于 TPU 的可扩展 RL 框架RLAX

是的,你没有看错,不是 GPU,也不是苹果自家的 M 系列芯片,而是谷歌的 TPU!还不止如此,这篇论文的研究中还用到了亚马逊的云和中国的 Qwen 模型。



  • 论文标题:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs
  • 论文地址:https://arxiv.org/pdf/2512.06392v1

总之,这篇论文的贡献还真不少。

不过,在具体介绍这篇论文的研究成果之前,我们有必要先关注一下其作者名单。

RLAX 的作者们



RLAX 论文共有四名核心作者:Runlong Zhou、Lefan Zhang、Shang-Chen Wu 和 Kelvin Zou。

通讯作者则是 Kelvin Zou 和 Cheng Leong。其中 Kelvin Zou 曾在苹果担任 Principal Engineer,现已经入职 Meta,成为了一位 AI 研究科学家。而 Cheng Leong 则是已在苹果工作超过 13 年的老将,现任苹果 AI Infra(人工智能基础设施)主管。



截图自 LinkedIn

此外,我们还在作者名单中看到了庞若鸣的名字。

这位已经加入 Meta 的前苹果 AI 负责人与其他六位作者的名字一起也出现了论文第一页的最下方,并被描述为「已离开苹果公司。他们在受雇于苹果公司期间为这项工作做出了贡献。」而且他们基本都是前几个月才刚刚离职。

简单搜索一下这六位作者的履历,可以看到:

  • Kelvin Zou 加入了 Meta
  • Hanzhi Zhou 已入职 OpenAI
  • Ye Ke 加入了 Anthropic
  • Floris Weers 以创始工程师身份加入了一家正处于隐身状态的创业公司
  • Chong Wang 也加入了 Meta
  • Yi Zhang 现在 xAI 研究模型推理。

RLAX:为了抢占 TPU 而生

回到技术本身。强化学习(RL)对现代推理语言模型的重要性已无需多言,几乎所有的顶尖模型都是基于 RL 的推理模型,包括 OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1 以及 Qwen 3。

苹果开发的RLAX 是一个专为在大规模分布式 TPU 集群上高效执行最先进 RL 算法而设计的强化学习框架



极致解耦与抢占式调度

RLAX 采用了参数-服务器(Parameter-Server)架构。主训练器(Master Trainer)会定期将更新后的模型权重推送到参数服务器。与此同时,一组推理工作器(Inference Workers)会拉取最新权重,并生成新的采样数据(Rollouts)。

该团队引入了一套系统级技术,将训练器、推理工作器和验证器(Verifiers)在逻辑上进行了分离。这种逻辑分离使得 RLAX 能够灵活且独立地为各个组件分配计算资源。

最重要的是,RLAX 完全支持抢占式调度。这意味着当有更高优先级的任务(如在线推理负载)需要时,系统可以立即回收 TPU 资源,而不会导致训练崩溃。

灵活的策略支持

RLAX 致力于解决大规模 LLM 后训练 RL 过程中的关键挑战,特别是如何高效处理 On-policy(在线策略)和 Off-policy(离线策略)RL。

为此,RLAX 提供了可编程的配置选项。用户可以强制执行「陈旧度界限」(Staleness Bounds),指定推理工作器拉取新权重的频率,以及训练器所能容忍的最大 Rollout 陈旧度。这使得用户可以在 On-policy 和 Off-policy RL 之间灵活选择。

Oubliette:把代码扔进地牢

在验证器(Verifiers)的设计上,苹果工程师展现了一种特有的黑色幽默。

验证器需要针对训练语料库中每种编程语言进行代码执行验证。为了高效且确定性地验证 Python 程序,他们将标准 Python 依赖项容器化。

为了跑通大规模代码测试,他们调用了亚马逊的 AWS Lambda 服务,并将其命名为 「Oubliette」。

「Oubliette」一词源自法语,原意是指城堡中只有一个出口(通常是天花板上的活板门)的地下地牢,是专门用来「遗忘」囚犯的地方。

苹果工程师用这个词来隐喻他们的无状态验证环境:代码和测试数据被扔进这个基于 AWS Lambda 的「地牢」里,跑完测试、吐出结果后,整个环境即刻销毁,就像这段代码从未存在过一样。

表现如何?

有趣的是,在实验阶段,我们看到了一个「缝合怪」的诞生:

  • 算力底座:如论文标题明示的那样,不是自家芯片,也不是英伟达 GPU,而是谷歌的 TPU v5p(使用了 1024 张 TPU v5p 进行实验)。
  • 验证环境:为了跑通大规模代码测试,他们调用了亚马逊的 AWS Lambda 服务。
  • 基础模型:他们用来验证这套框架的模型,不是 Apple Intelligence 的底座,而是来自中国阿里团队开源的 QwQ-32B。

没错,苹果的工程师,在美国用着谷歌的 TPU,调着亚马逊的 Serverless 服务,去优化一个中国开源的 Qwen 模型。

结果倒是非常亮眼。RLAX 仅用 12 小时 48 分钟,在 1024 个 v5p TPU 上将 QwQ-32B 的 pass@8 准确率提高了12.8%,同时在训练期间保持了对任务抢占的鲁棒性。



这种「美中技术大乱炖」的场景,在苹果以往封闭的生态中简直不可想象。这也侧面印证了两件事:第一,在 AI Infra 领域,实用主义正在压倒门户之见;第二,国产模型(尤其是 Qwen 和 DeepSeek)在代码推理领域的统治力,已经强到连苹果都忍不住要拿来当「磨刀石」。

消失的 1.0:一个硬核的数值幽灵

在 RLAX 论文的第 4 页和第 9 页,苹果披露了一个足以让系统工程师脊背发凉的 Bug。

在强化学习中,On-policy(在线策略)训练有一个理论基石:Importance Sampling ratio(重要性采样比率)r (θ) 应该恒等于 1.0。因为行为策略和当前策略是完全一致的。

但在 TPU 训练实战中,苹果团队发现:1.0 竟然不等于 1.0



这个问题的根源在于 bfloat16 浮点数格式的非结合律(Non-associative) 特性。简单来说,在计算机里 (a+b)+c 和 a+(b+c) 的结果可能存在微小的比特级差异。

  • 推理时:JAX 编译器为了极致速度,会疯狂融合算子(Kernel Fusion)。
  • 训练时:为了反向传播计算梯度,编译器必须保留中间值,导致算子融合策略与推理时不同。

这种计算顺序的微小差异,在 bfloat16 下被放大,导致推理端算出的概率和训练端算出的概率无法对齐,进而导致训练崩溃。

苹果的解决方案非常暴力且有效:他们在训练器中强制重算(Rematerialization),禁用了大部分激活值的保存,强行让训练端的计算图去「模仿」推理端的计算顺序。虽然牺牲了一点点速度,但消除了这个数值问题。

对于正在从事 LLM Post-training 的工程师来说,这个 Debug 过程极具参考价值。

虽然目前已被撤稿,但 RLAX 证明了苹果在 AI 基础设施上依然拥有世界顶级的工程能力。他们能驾驭最复杂的分布式系统,解决最底层的数值难题。

但随着许多重要人物分散到 Meta、OpenAI、Anthropic 和 xAI,这篇论文似乎也成为了苹果 AI 这一阶段的一个注脚。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

湖人侃球师
2026-02-01 06:50:07
轻易把女人约出来的4种方法,坏男人都精通,老实男快学

轻易把女人约出来的4种方法,坏男人都精通,老实男快学

文雅笔墨
2026-01-31 03:31:14
湖人三分出手多但不准,东契奇八村塁难扛大旗,乐福或成破局关键

湖人三分出手多但不准,东契奇八村塁难扛大旗,乐福或成破局关键

不凡体育
2026-02-01 13:08:10
害怕春节被“斩首”?赖清德当局加紧春节备战!模拟解放军突袭机场等关键设施,台军演练短程防空接战、地空整体作战、无人机攻击等

害怕春节被“斩首”?赖清德当局加紧春节备战!模拟解放军突袭机场等关键设施,台军演练短程防空接战、地空整体作战、无人机攻击等

每日经济新闻
2026-01-31 19:15:15
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

五元讲堂
2026-01-26 11:26:26
破旧衣服大叔摸狗后续:狗主人回应,已联系社区帮助,大叔已回家

破旧衣服大叔摸狗后续:狗主人回应,已联系社区帮助,大叔已回家

离离言几许
2026-01-31 11:04:37
蒙哥马利有多痴情?对寡妇贝蒂一见钟情,甘愿做她两个孩子的继父

蒙哥马利有多痴情?对寡妇贝蒂一见钟情,甘愿做她两个孩子的继父

饭小妹说历史
2026-01-17 09:12:37
日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

随波荡漾的漂流瓶
2026-01-22 12:00:14
2月1日,券商给予评级并且给出目标价的公司一览

2月1日,券商给予评级并且给出目标价的公司一览

A股数据表
2026-02-01 06:00:03
中国芯片英雄,被美国囚禁9年后终于回家!他反手把苹果告上法庭

中国芯片英雄,被美国囚禁9年后终于回家!他反手把苹果告上法庭

胖哥不胡说
2026-01-24 18:45:24
中铁建领导、员工薪资大曝光!

中铁建领导、员工薪资大曝光!

黯泉
2026-01-31 22:24:38
28元到5元!“股息奶牛”大秦铁路陨落,21万股民被套真相

28元到5元!“股息奶牛”大秦铁路陨落,21万股民被套真相

慧眼看世界哈哈
2026-01-07 11:54:23
连超湖人太阳升西部第5!华子33分森林狼大胜灰熊 兰德尔27+7+7

连超湖人太阳升西部第5!华子33分森林狼大胜灰熊 兰德尔27+7+7

醉卧浮生
2026-02-01 11:20:02
董璇小酒窝参加朵朵生日会,陈思诚罕见露面,两家人合照太有爱了

董璇小酒窝参加朵朵生日会,陈思诚罕见露面,两家人合照太有爱了

扒虾侃娱
2026-01-31 18:25:21
为什么大多数中国家长无法独立带娃?网友的分享犹如醍醐灌顶

为什么大多数中国家长无法独立带娃?网友的分享犹如醍醐灌顶

另子维爱读史
2026-01-31 20:12:55
最惨首相诞生?高市早苗支持率雪崩,17天豪赌变全民打脸现场!

最惨首相诞生?高市早苗支持率雪崩,17天豪赌变全民打脸现场!

孤单是寂寞的毒
2026-02-01 12:47:43
78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

林雁飞
2026-01-29 16:31:48
山东省纪委监委最新通报!

山东省纪委监委最新通报!

齐河大视野广告
2026-02-01 10:49:23
马斯克拉响警报:旧世界只剩5年,中国手握的唯一王牌,不是芯片

马斯克拉响警报:旧世界只剩5年,中国手握的唯一王牌,不是芯片

郭蛹包工头
2026-01-30 11:33:20
2026-02-01 13:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142560关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

媒体:宝可梦十年间三次踩线 可不是简单的"工作失误"

头条要闻

媒体:宝可梦十年间三次踩线 可不是简单的"工作失误"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

健康
游戏
时尚
亲子
军事航空

耳石症分类型,症状大不同

《古神:风里希》“游先看”PV解析:重塑上古神话

上年纪的女人买“上衣”:避开3个坑,这样选时髦又显气质

亲子要闻

萌娃爆笑模仿爸爸打呼噜,逗得妈妈哈哈大笑

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版