网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

华人天才出走xAI：算力竞赛已死，30美元解锁AI自进化！

2026-02-27 14:18:25　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：倾倾

【新智元导读】2026年2月，Grok的核心成员Jiayi Pan和Toby Pohlen相继离开xAI。这似乎是某种预示，或许通往AGI的路不是算力规模，而是方法的突破。

2月26日，xAI Grok 4团队核心成员Jiayi Pan宣布离职

在离职声明中，他感谢了团队所有成员，给马斯克留足了面子。

几乎同一时间，Grok团队的另一位核心研究员Toby Pohlen也宣布离职。

他在X上阴阳Grok的工作机制，称「没有人能比你们更能熬夜」，然后@官方，公开叫板。

两人都是grok团队的重要贡献者，却在48小时内相继离开，这让外界对xAI内部状况产生了更多猜测。

4年，Jiayi Pan从一个初学者成长为Grok 4的核心贡献者，又选择了一条与巨头算力竞赛截然不同的技术路径。

四年蜕变

从AlphaGo迷弟到Grok 4贡献者

Jiayi Pan的AI之路始于2019年。

他本科就读于密歇根大学，获得计算机科学与电子计算机工程双学位，2023年毕业。

那时，Jiayi Pan对RL还一无所知。据他自己回忆，当导师提到RL时，他下意识想到的还只是AlphaGo。

2023年，他进入加州大学伯克利分校攻读博士，研究语言模型与视觉/机器人学的结合。

在Berkeley的早期项目中，他开发了SWE-Gym，这是一个将RL引入软件工程领域的环境。

代码传送门：https://github.com/SWE-Gym/SWE-Gym

该项目基于SWE-bench数据集的2294个真实GitHub Issue，要求AI不仅能读懂代码，还要生成可通过测试的Patch。

这为他后续的TinyZero研究——让AI学会修正自己，奠定了基础。

2025年5月，Pan加入xAI的Reasoning团队，4开发的核心成员之一。

在xAI的9个月里，他参与了强化学习模块的优化，推动模型从简单预测向自我验证演进。

也正是在这段时间，他启动了TinyZero项目。

30美元的颠覆

TinyZero「羞辱」巨头

2025年，Jiayi Pan在X上宣布开源TinyZero。

这是一个仅需30美元训练成本的3B参数模型，通过纯强化学习实现了自我验证和推理能力。

代码传送门：https://github.com/Jiayi-Pan/TinyZero

TinyZero基于Qwen2.5-3B基础模型，使用veRL框架在Countdown和Multiplication等任务上训练。

实验结果显示，基础模型在Countdown任务上的准确率从0%提升到RL训练后的80%以上。

这验证了一个假设：DeepSeek R1-Zero展现的自我推理能力，不是靠海量参数堆出来的，而是可以通过纯强化学习在小模型上复现的。

通往高级推理能力的路径，可能不需要5000亿美元的基础设施投资。

同一时期，Sam Altman宣布Stargate计划，计划在4年内投资数千亿美元建设AI基础设施，与Microsoft和Oracle合作。

但据报道，该项目因三方利益冲突而陷入停滞，到2025年底，一个数据中心都没建成。

相比之下，TinyZero的性价比拉满。

无需海量数据，无需庞大资金注入，纯靠RL，在极低的算力下完成了关键突破。

这或许也解释了为什么Pan等核心成员相继离职。

当你已经验证了一条不依赖巨头资源的技术路径，留在算力军备竞赛中还有意义吗？

出错了！TinyZero的元认知觉醒

TinyZero最引人注目的不是成本，而是它展现出的「元认知」特征。

在Countdown游戏中，模型不仅会预测答案，还会在输出最终答案前，进行完整的试错与回溯。

训练日志显示，模型会频繁输出标签，内含自我质疑的语句。

例如，当计算路径偏离目标时，它会自动生成类似「Wait, that's wrong」的中间思维链，并立即启动新一轮推演。

这种行为模式此前只在DeepSeek R1-Zero等大规模模型中观察到。

R1-Zero的训练过程中曾出现「顿悟」式的能力跃迁，而这通常需要数周的迭代。

但TinyZero在3B参数、30美元成本的条件下就复现了这一现象。

Countdown任务中不同参数规模模型的PPO训练critic score曲线。可以看到，即使是3B的小模型，经过强化学习训练后也能展现出明显的能力提升。

这证明，Scaling Law负责堆砌知识广度，而RL负责打通逻辑深度的最后一公里，两者的结合不一定需要海量参数。

随着TinyZero的开源，这种自我纠错能力不再是巨头的专属技术。

任何开发者都可以在自己的垂直领域训练出具备思考后再回答能力的AI。

技术拼图：自我进化的可能性

回顾Jiayi Pan的研究脉络，可以看到一条清晰的技术路径：

在Berkeley期间开发的SWE-Gym，将软件工程基准SWE-bench转化为强化学习环境，训练AI修复真实代码问题。这是让AI学会改代码。

在xAI期间参与的Grok 4项目，将强化学习应用于大模型推理能力的提升，这让AI学会推理。

而TinyZero的开源，则证明了推理能力可以在小模型上通过纯RL实现，这是让AI学会自我纠错。

当这三块拼图组合在一起，一个更具想象力的可能性浮现：如果AI既能纠错，又能改代码，那它是否能优化自己的训练代码，从而实现某种程度的「自我进化」？

而这，正是2025年发布的Humanity's Last Exam(HLE)基准所隐喻的场景。

论文链接：https://arxiv.org/abs/2501.14249

HLE是一个多模态、超高难度的AI评估基准。

现有的MMLU等测试已被模型以90%+的准确率攻破，失去了区分度，而当AI能力持续提升。

人类需要什么样的「最后一道防线」来评估超级智能？

Jiayi Pan的工作，无论是SWE-Gym、Grok 4还是TinyZero都在逼近这个问题的边界。

他已经离开了xAI，去向未知。但他留下的代码和论文清晰地指向一个方向：

高级AI能力的实现，可能不需要依赖巨头的算力资源，而是可以通过方法论的创新在更小的规模上达成。

这带来了技术平权的可能，也带来了风险扩散的隐忧。

当任何开发者都能用30美元训练出具备自我纠错能力的模型，RL训练的不稳定性、开源模型的伦理边界、失控风险的防范......这些问题都没有现成答案。

或许，这确实是人类面对AI自我进化可能性的「最后一次考试」。

而这场考试，是所有人都需要参与的开卷测验。

参考资料：

https://www.linkedin.com/in/jiayi-pan-88964132a/https://x.com/jiayi_pirate/status/2026733283518906703?s=20

https://x.com/TobyPhln/status/2027188868059926705?s=20

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

SFT远不如RL？永不过时的剃刀原则打开终身学习大模型训练的大门

机器之心Pro 2025-09-09 20:19:13
0 跟贴 0
JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力？

机器之心Pro 2025-12-24 14:52:46
0 跟贴 0

数据缺少标注RL能诱导模型推理吗？Co-rewarding提供自监督RL方案

机器之心Pro 2026-02-25 17:42:40
0 跟贴 0

AI终于学会「读懂人心」，带飞DeepSeek R1，OpenAI o3等模型

机器之心Pro 2025-11-20 15:11:00
0 跟贴 0
AI智能体不是越多越强：信息冗余构成了LLM Agent Scaling的瓶颈

机器之心Pro 2026-02-27 14:45:03
1 跟贴 1

上海交大、深势科技等发布 Innovator-VL：开启科学大模型新范式

机器之心Pro 2026-02-27 15:08:06
0 跟贴 0

“AI泡沫”担忧再起，光模块还能“上车”吗？

每日经济新闻 2026-02-27 11:42:07
0 跟贴 0
又一国产全模态视频大模型杀入Artificial Analysis榜单Top 2

机器之心Pro 2026-02-27 14:42:39
0 跟贴 0

大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0
AlphaEvolve再进化！DeepMind用AI「养殖」算法，碾压所有人类设计

新智元 2026-02-27 17:10:23
0 跟贴 0
DeepSeek深夜发论文，V4前奏来了？联手清北破GPU难题，智能体大爆炸

新智元 2026-02-27 12:03:27
30 跟贴 30
清华数学系大神跳槽OpenAI！曾主导SAM与Llama开发

量子位 2026-02-25 13:03:49
25 跟贴 25
对话陈佳玉：从核聚变到机器人，是攀登AI珠峰的过程

DeepTech深科技 2025-12-06 21:03:13
80 跟贴 80
千问AI眼镜来了！阿里AI开始“品牌收敛”？

雷科技 2026-02-27 17:39:36
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
不做战争工具！OpenAI、谷歌员工以公开信反对五角大楼“技术收编”

财联社 2026-02-27 17:38:08
0 跟贴 0
华裔二代我既不像中国人，也不是德国人，那该如何定义

Patient二音 2026-02-23 06:03:01
35 跟贴 35
75岁华裔老太美国被打，危急时刻抄木棍反杀，警察来了她哇哇大哭

星光科普说 2026-02-26 06:05:00
0 跟贴 0
让LLM不再话痨，快手HiPO框架来了

机器之心Pro 2025-11-03 15:10:48
0 跟贴 0
精准推理排除炸，稳稳赢3炮！！！

抖球 2026-02-26 01:41:46
0 跟贴 0
中国开始清点在日华人数量，日本一下子慌了，引发连锁反应

辉说搞笑家 2026-02-26 17:03:19
4 跟贴 4
75岁华裔老太被偷袭，“反杀”美国39岁男子，网友：是中国功夫

绝绝子笑料站 2026-02-25 10:40:43
10 跟贴 10
移民30年的华人大妈，说出了海外华人最真实的心声

Boba奔波儿灞 2026-02-26 08:14:59
0 跟贴 0
媒体：俄乌惨烈的仗或打到2030年双方旨在"耗尽敌方"

中国新闻周刊 2026-02-26 22:44:14
18144 跟贴 18144
日本社会上有关系户吗？托人找关系办事行得通吗？在日华人揭秘

流萤Zz 2026-02-23 04:15:14
0 跟贴 0
为什么很多华裔去了美国，就慢慢不像中国人了，网友：相由心生

感恩每日相伴 2026-02-26 09:48:50
3 跟贴 3
华人女子被美警察逮捕，现场发布小作文，这可不像初中文凭的

趣事收藏家 2026-02-26 10:00:54
1 跟贴 1
清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

机器之心Pro 2025-11-13 14:56:23
0 跟贴 0
DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能

量子位 2026-02-27 16:13:34
0 跟贴 0
谷歌Nano Banana 2亮相：专业能力全面下放成本腰斩一半

财联社 2026-02-27 01:57:16
0 跟贴 0
在美国奋斗25年华人大叔称大陆来的人，80%都精神出问题了

长河小吏 2026-02-24 10:14:19
3002 跟贴 3002
美国的唐人街街道，对待这里就是懒得管，垃圾成灾全当没看到！

笑到抽筋故事会 2026-02-25 16:20:28
1 跟贴 1
纽约华人公寓被抢300000美元， 9名华人被脱光衣服强制搜身

星际军武 2026-02-26 12:24:40
10 跟贴 10
加拿大华人惊了！孩子回中国一次，观念巨变信仰崩塌

赴赴赴焰海 2026-02-25 05:24:07
3 跟贴 3
问答环节（宗教释经权的逻辑）

独夫之心 2026-02-27 03:07:13
0 跟贴 0
老外被问不想去的国家，第一反应太意外，他们越恨说明我们越成功

笑笑说搞笑生活 2026-02-26 09:11:00
3 跟贴 3
算力还得涨

晓鸥姐姐v 2026-02-27 14:25:25
0 跟贴 0
在美国生活几十年，到底是中国好还是美国好？海外华人说说心里

乌上高高 2026-02-27 09:11:22
0 跟贴 0
这就是小猫的底层代码冲突吗？

970水果糖 2026-02-27 14:20:18
0 跟贴 0

俄罗斯终于摊牌，愿意两大底牌换中国帮助，中方是否会改变立场？

俄罗斯终于摊牌，愿意两大底牌换中国帮助，中方是否会改变立场？

阅尽天下大事

2026-02-26 22:03:31

2026款马自达6登场！198匹自吸+6AT，驾控质感直接拉满

2026款马自达6登场！198匹自吸+6AT，驾控质感直接拉满

蓝色海边

2026-02-27 08:42:53

0-1，德甲第4不敌欧冠前冠军，仍晋级欧联杯16强

0-1，德甲第4不敌欧冠前冠军，仍晋级欧联杯16强

凌空倒钩

2026-02-27 09:38:47

连卡佛败走成都 “买手制”再难吃下“信息差”

连卡佛败走成都 “买手制”再难吃下“信息差”

封面新闻

2026-02-26 17:13:11

最新：乌克兰收复库皮扬斯克99%！摧毁俄军S400系统

最新：乌克兰收复库皮扬斯克99%！摧毁俄军S400系统

项鹏飞

2026-02-26 17:32:02

旭日阳刚出道16年后，如今一个开豪车住别墅，一个却只能务农谋生

旭日阳刚出道16年后，如今一个开豪车住别墅，一个却只能务农谋生

白面书誏

2026-02-26 14:15:18

“去中国化”最彻底的4个国家，有一个已经完全西化了

“去中国化”最彻底的4个国家，有一个已经完全西化了

北纬的咖啡豆

2026-02-24 09:16:33

全新奔驰S级实车，德国总理试乘，你爱不爱？

全新奔驰S级实车，德国总理试乘，你爱不爱？

车动态

2026-02-27 12:26:39

手机品牌，又倒下一个

有意思报告

2026-02-26 18:17:47

人能无耻到什么地步？看完真得气到牙根儿疼

人能无耻到什么地步？看完真得气到牙根儿疼

另子维爱读史

2026-01-31 20:14:52

你永远想不到医院的八卦能有多炸裂？一件提神醒脑，两件直接撂倒

你永远想不到医院的八卦能有多炸裂？一件提神醒脑，两件直接撂倒

另子维爱读史

2026-01-22 18:21:09

中国“捡钱”时代即将来临：如果手中只有10万，试试死啃这两条线

中国“捡钱”时代即将来临：如果手中只有10万，试试死啃这两条线

蜉蝣说

2026-02-27 11:44:20

离岸人民币兑美元短线快速走低逾100点

离岸人民币兑美元短线快速走低逾100点

每日经济新闻

2026-02-27 08:46:06

今日北京雪后气温降，未来三天气温保持低位

今日北京雪后气温降，未来三天气温保持低位

北青网-北京青年报

2026-02-27 13:45:05

富士康“赌输”了！郭台铭做梦也没有想到，“制裁”会来的这么快

富士康“赌输”了！郭台铭做梦也没有想到，“制裁”会来的这么快

混沌录

2025-08-22 18:23:58

中超热身赛：申花9-2大胜泰山队，拉唐大爆发，阿尔瓦罗缺阵

中超热身赛：申花9-2大胜泰山队，拉唐大爆发，阿尔瓦罗缺阵

中超伪球迷

2026-02-27 16:35:17

恐怖! 华人富商被女子约会引诱惨遭绑架撕票埋尸荒野! 人财两失

恐怖! 华人富商被女子约会引诱惨遭绑架撕票埋尸荒野! 人财两失

北国向锡安

2026-02-25 09:32:28

刚从印度回来，说点不中听的：印度的真实面目，可能让你很意外

刚从印度回来，说点不中听的：印度的真实面目，可能让你很意外

世界圈

2026-02-26 19:15:06

爱泼斯坦案再曝猛料！女星指控献祭，证人曝狩猎派对像饥饿游戏

爱泼斯坦案再曝猛料！女星指控献祭，证人曝狩猎派对像饥饿游戏

小徐讲八卦

2026-02-25 07:05:52

上海一女子怀疑丈夫出轨闺蜜，花9000元雇人追踪被抓包！法院：“私家侦探”判刑4个月罚款3000元

上海一女子怀疑丈夫出轨闺蜜，花9000元雇人追踪被抓包！法院：“私家侦探”判刑4个月罚款3000元

大象新闻

2026-02-26 09:45:07

AI产业主平台领航智能+时代

14604文章数 66646关注度

往期回顾全部

科技要闻

单张不到五毛！谷歌深夜发布Nano Banana 2

头条要闻

女子遇诈骗怎么也学不会操作结果骗子当场被"整破防"

头条要闻

女子遇诈骗怎么也学不会操作结果骗子当场被"整破防"

体育要闻

一场必须要赢的比赛，男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后美国欲没收其全部收入

财经要闻

沈明高提共富建议百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市搭载华为四激光智驾方案

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

旅游

本地

艺术

公开课

转头就晕的耳石症，能开车上班吗？

旅游要闻

3月1日起，青天河对全国游客免门票！

本地新闻

津南好·四时总相宜

艺术要闻

紫气东来，好运一整年！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版