网易首页 > 网易号 > 正文 申请入驻

反思OpenAI 路线:AGI 的价值不在于“替代员工”,而在于“发现新知”

0
分享至


当华尔街和硅谷都在计算AI 能替代多少人类劳动力时,盛大创始人陈天桥提出了一个反直觉的商业洞察:人类文明的飞跃,从来不是靠把旧工作做得更快,而是靠发现前所未有的新规律 。

目前主流的AGI 定义带有强烈的“功能主义”色彩——OpenAI 将其定义为在经济价值工作上超越人类的系统 。但陈天桥认为,这是一种短视。如果 AI 只是模仿人类现有的行为(行为主义)或替代现有工作(功能主义),它就永远无法超越人类已知的知识边界。

真正的万亿级商业机会,隐藏在“理科大模型”中。陈天桥指出,AGI 的终极产物不应该是新的文案或代码片段,而应该是“新知识”——新的定理、新的材料、新的药物、新的工艺 。这些领域容不得半点“幻觉”。在医疗、工程、决策领域,99% 的准确率不是面子指标,而是“可质押、可签字”的商业门槛 。低一个点的可靠性,意味着烧掉数亿的工程预算或错失关键的药物研发窗口。

陈天桥旗下的MiroMind 正在通过 BrowseComp 等项目验证这一逻辑:不追求在聊天测试中拿高分,而是追求在长链路任务中通过“时间序列上的反复求证”来获取 Truth(真相) 。

对于投资人和企业家来说,这是一个重要的信号:基于“文科模型”的内容生成赛道可能很快会陷入红海竞争,而基于“理科模型”的科学发现和复杂决策赛道,虽然门槛极高(需要 300 步推理准确率),但这才是 AGI 能够创造增量价值的蓝海。

以下为陈天桥博文全文:

言语道断,因果自现——我心中的AGI是什么

过去这一两年,我们亲眼看着大模型的语言能力以肉眼可见的速度跃迁:写作、总结、对话、问答、解题,越来越“像人”;HLE 之类的评测分数一再刷新纪录,连奥数级别的题目也能被系统性攻克。于是一个看上去顺理成章的结论开始流行:“所谓 AGI、大一统的通用智能,大概也就差不多了。”但在我看来,这是一场美丽的误会。

为了把这件事讲清楚,我借用一个比喻:今天主流的大模型,更像是“文科大模型”。它以语言生成与文本一致性为中心,把知识组织成“像真的叙述”和“像对的答案”。它的价值在于“模拟”:它能理解我们的委婉与修辞,能生成优雅的文字、逼真的对话、动人的故事;它会在教育、沟通、内容生产上变成新的基础设施,像电、像水,润物无声。但是即便它能解奥数、HLE 也能拿高分,这些胜利也大多发生在封闭系统里:题目定义明确、规则固定、对错可判、反馈即时。

但我一直坚信,人类真正需要AI 去对抗的,是衰老、疾病、能源、材料、气候这些问题;这些战场不在考试题的封闭世界里,没有标准答案等你生成,只有现象、噪声、偏差、缺失变量与缓慢反馈;正确不是“写出来”的,而是被外部世界“确认出来”的。封闭世界的高分,证明了推理工程的成熟,但并不代表已经拥有了稳定的知识生产机制;高水平解题固然是走向发现的必要基础,却远非充分条件,因为真正决定未来的,不是封闭的叙述,而是那条冰冷而精确的因果红线;它关心的不是“说得对不对劲”,而是“这个假设能不能被现实否决或确认”;它的终极产物不是新作品,而是新知识——新的定理、新的材料、新的药物、新的工艺、新的工程结构。我把这种范式称为“理科大模型”。它的价值在于“发现”。

需要澄清一点:我说的“文科/理科”,不是两种模型的物种差异,而是两种默认动作的差异:文科大模型倾向给出一个“看起来不错的最终答案”,理科大模型倾向先给出一组可证伪的假设,并同时给出把这些假设变成证据的路径;文科模型在不确定处更容易把答案“凑圆”,理科模型在不确定处更像本能地停一下,然后去查证、去拆解,把问题拆成可验证的小问题;理科模型把因果当作第一公民,回答“条件改变后会发生什么”;理科模型还必须有可累积的长期记忆,把每一次验证得到的结论以可追溯的方式写回去。总之,理科模型更像一个握着手术刀的外科医生:在无数方案里,识别哪一刀真正触及因果红线;它知道,一旦切下去,现实会给出最诚实、也最残酷的反馈,形成真正的因果闭环——这种对“真实代价”的敬畏,正是两种范式之间最本质的鸿沟。

所以,真正决定AGI 应该是什么,取决于我们的价值取向:我们究竟更在意一个能理解所有修辞,还能取代人类工作的“灵魂伴侣”,还是更迫切地需要一个能帮我们撕开迷雾、照亮未知,创造价值的“因果明镜”?我认为是后者。所以,实现AGI 不是为了再造一个更会聊天的会生成的系统,而是为了打造一种“会发现”的智能。

让我们带着这样的价值观去审视一下现有的AGI 定义的主要流派。一种是行为主义范式,源于图灵测试,认为 AGI 的标准是“机器表现出的行为与人类无法区分”。这是目前大众最直观的评判标准。但如果一个 AI 只是在模仿人类说话,它永远无法告诉我们那些人类还没发现的真理。第二种是功能主义范式。以 OpenAI 为代表,定义 AGI 为“在大多数具有经济价值的工作中超越人类的自适应系统”,侧重于对人类劳动力的替代能力。但人类文明的每一次飞跃,都不是靠把旧工作做得更快,而是靠发现前所未有的新规律。第三种是能力分级范式。以 DeepMind 为代表,将 AGI 分为从 "Emerging" 到 "Superhuman" 的五个层级,核心指标是在广泛且未见过的任务中的“泛化能力”与“表现分值”。可现实世界不是考场,没有标准答案,真正的智慧是要在没有考卷的地方,自己找到那条正确的路。当然还有一些其他的范式都或多或少存在上述问题。

那么我心目中AGI 目标究竟要做什么?用一句话概括:它是一个高可信、可验证、可纠错的通用推理引擎。在工程上能够做到三百步以上的复杂推理后,依然维持接近99% 级别的整体正确率,并通过形式化和工具链把每一步推理“钉死”为可检查的证据,最终对任意复杂问题给出闭环解决方案。

为什么我们死磕“300 步”?我们必须先定义推理的最小单位——标准原子步(SIU, Standard Inference Unit),作为可审计的基本推理单元。每一步只执行单一逻辑操作,依赖最小必要输入,其结果可以通过工具或规则直接检验。按照这个标准,现在的大模型单步推理准确率最高能冲到 98%,哪怕每一步都能做到这个最高水平,300 步后的端对端成功率也只有 0.23%,已经接近归零。这意味着在 300 步之后,概率和运气基本失效,系统必须依赖可检验的推理与外部反馈闭环,而不是靠“看起来合理”的续写去蒙混过关。所以我认为 300 步是独立解决复杂现实问题的“跨度起点”。

为什么99% 必须是硬杠?因为发现式系统不是用来“聊天”,而是要进入现实成本区间:实验、工程、医疗、决策。低一个点的可靠性,就意味着高频的错误下注;而现实世界的错误,不是“答错题”,而是浪费实验窗口、烧掉工程预算、甚至造成不可逆的损耗。99% 不是面子指标,而是“可质押、可签字”的门槛。

所以,我心目中的AGI,是能在 300 步的逻辑长征中,靠自我纠错熬过“概率死亡”,最终抵达地图之外的起点。从这里开始,AGI 就可以在科学、工程、决策规划等任意领域里,作为一个可审计、可验证的通用问题求解器存在。

当然,我并不认为这是一条“喊口号就能到达”的路线。把目标钉在“300 步仍保持 99% 可靠性”,本质上是在主动面对三个工程硬点:长链误差累积、开放世界验证缺口、以及组合爆炸下的预算约束。正因如此,我们在工程上必须进行解剖,将推理过程分为两层:逻辑生成层与检验层。生成层负责“想”:将大问题递归地拆解,直到细化为原子级操作,我们还要做检验层负责“查”:对每一个原子步通过工具、仿真或外部数据逐一验证。一旦某一步不过关,系统就在局部进行回退和重生成,而不是推翻整条推理链。

MiroMind 已经在这条路走出了第一步。以BrowseComp 为例,MiroMind 仅用 235B 参数模型就给出了 SOTA 的成绩,它的意义不在于“分数本身”,而在于证明了一个工程事实:我们正在把推理从“单次生成”推进到“时间序列上的反复求证”。更具体地说,我们不是依赖一次性长链思考去赌对答案,而是训练模型在更深、更频繁的 agent/环境交互中不断获取外部反馈并纠错,让推理过程逐步变成可审计的证据链。对我们而言,这就是“通用求解器”的第一块地基,然后在 99% 可靠性前提下逐步推到 300 步以上的跨度。这个过程沉默、缓慢、严谨、甚至有点残酷,它抛弃了人类语言的精妙模仿,却在枯燥、严苛、却能被现实反复复现的因果闭环中,缓慢破土而出,即使有耐心资本的加持和理想主义的坚守,这也会是一个非常痛苦的过程。

佛经里有个词,叫“大圆镜智”。说的是一个人的心若能修到像一面大圆镜,就能如实照见万物因果,不被尘埃遮蔽,不被偏见扭曲,这是智慧的最高境界。我对这个智慧一直很向往,甚至创办的科普视频号也取名叫做大圆镜。而我心中的 AGI 就是一个无限接近“大圆镜智”的智能系统,不迷恋漂亮的语言,而是追问事实的真相是什么;不急着给出答案,而是去求证背后的因果是什么。在一个被语言和叙事塞满的AI 时代,我们需要一面只对“因果和真相”负责的镜子。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没有任何悬念了,字母哥下家肯定在以下三支球队中产生!

没有任何悬念了,字母哥下家肯定在以下三支球队中产生!

君子一剑似水流年
2026-02-02 07:30:30
滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

趣文说娱
2026-01-21 18:20:43
林良锋:冷静!让卡里克慢慢来!

林良锋:冷静!让卡里克慢慢来!

体坛周报
2026-02-02 17:58:11
国乒惊变!双打一夜大洗牌,秦志戬这1招让两大名帅慌了神

国乒惊变!双打一夜大洗牌,秦志戬这1招让两大名帅慌了神

卿子书
2026-02-02 14:59:37
4连胜难保帅位,张庆鹏下课倒计时?曝接班人浮出水面,会是他?

4连胜难保帅位,张庆鹏下课倒计时?曝接班人浮出水面,会是他?

萌兰聊个球
2026-02-02 13:20:13
大S雕像邻居是高以翔!石碑「藏具俊晔催泪告白」 设计理念曝光

大S雕像邻居是高以翔!石碑「藏具俊晔催泪告白」 设计理念曝光

ETtoday星光云
2026-02-02 16:20:05
美芯片价格暴跌90%!美媒破防:责任在中国,因为中国不买了!

美芯片价格暴跌90%!美媒破防:责任在中国,因为中国不买了!

我心纵横天地间
2026-02-01 13:08:34
伊朗已被包围,美军开战在即,哈梅内伊进地堡,中方要做最坏打算

伊朗已被包围,美军开战在即,哈梅内伊进地堡,中方要做最坏打算

来科点谱
2026-01-29 08:55:35
万人求出处的网红正式下海!

万人求出处的网红正式下海!

吃瓜党二号头目
2026-01-31 10:43:31
历史正重演!当美国演起苏联,中国却玩回了美国的剧本?

历史正重演!当美国演起苏联,中国却玩回了美国的剧本?

风云人物看历史
2026-01-31 16:49:08
岛国女神的引退与复出:樱茉日的舞台归来之路

岛国女神的引退与复出:樱茉日的舞台归来之路

碧波万览
2026-02-02 01:33:42
11年恩爱抵不过残酷现实,32岁昆凌青春正盛,奔50周杰伦年老力衰

11年恩爱抵不过残酷现实,32岁昆凌青春正盛,奔50周杰伦年老力衰

小熊侃史
2026-01-29 07:20:07
大风追踪|质疑家委会收263.3元,家长被班主任踢出群;调查组认定属乱收费,副校长被批评教育,班主任道歉

大风追踪|质疑家委会收263.3元,家长被班主任踢出群;调查组认定属乱收费,副校长被批评教育,班主任道歉

大风新闻
2026-02-02 16:44:03
10年前随手买的被遗忘,如今“躺赚”20万元!女子激动不已……网友:大腿都拍肿了

10年前随手买的被遗忘,如今“躺赚”20万元!女子激动不已……网友:大腿都拍肿了

南国今报
2026-01-29 09:19:02
19秒VAR回看,维拉争冠梦碎!埃梅里愤怒背后的进攻困境

19秒VAR回看,维拉争冠梦碎!埃梅里愤怒背后的进攻困境

浮萍足球
2026-02-02 05:10:16
最高300席!高市早苗稳了,日右翼向191国喊话,俄罗斯对日下通牒

最高300席!高市早苗稳了,日右翼向191国喊话,俄罗斯对日下通牒

离离言几许
2026-02-02 13:16:27
斯诺克无缝对接!中国10人参赛,2将揭幕战,丁俊晖黄金时间首秀

斯诺克无缝对接!中国10人参赛,2将揭幕战,丁俊晖黄金时间首秀

刘姚尧的文字城堡
2026-02-02 08:22:02
老泄残精,人穷寿尽!医生提醒:63岁之后,男性要守好这三道关

老泄残精,人穷寿尽!医生提醒:63岁之后,男性要守好这三道关

健康科普365
2026-01-30 21:26:44
今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

阿龙美食记
2026-01-29 11:03:56
昨天顿悟,为什么塔利班和伊朗神权也有人支持?

昨天顿悟,为什么塔利班和伊朗神权也有人支持?

修明札记
2026-01-31 11:39:24
2026-02-02 19:11:00
猎云网
猎云网
聚焦科技创业创新,钻研产业趋势,用心服务创业者。
58406文章数 327109关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

数码
艺术
健康
手机
本地

数码要闻

TrendForce:预计PC DRAM内存价格2026Q1将翻倍,涨幅创新高

艺术要闻

马斯克花5万买的折叠屋,是预制住宅的未来吗?

耳石症分类型,症状大不同

手机要闻

OPPO Find X10系列测试双2亿超大底方案:OPPO最强天玑旗舰

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

无障碍浏览 进入关怀版