网易首页 > 网易号 > 正文 申请入驻

我们距离“AI科学家”还很远

0
分享至

当下的 AI 智能体,并不具备从全新观测中提炼深度洞见的能力。

作者:Timothy B. Lee 2026 年 5 月 7 日

今年 2 月,我的同事凯・威廉姆斯(Kai Williams)指出,大语言模型有一种神奇能力:仅凭一个人未公开的文稿,就能识别出作者身份。近几周,梅根・麦克阿德尔(Megan McArdle)、凯尔西・派珀(Kelsey Piper)等记者也陆续证实了这一点。

我决定亲自测试一番。2012 年,一位朋友付我 500 美元,让我写一篇关于加拿大大型枫糖浆盗窃案的文章,这篇稿子从未发表。上周五,我打开无痕模式下的 ChatGPT,粘贴了文章其中五个段落。

ChatGPT 表示无法确定作者,猜测可能是内特・西尔弗(Nate Silver),或是我在沃克斯新闻的前同事马修・耶格尔西亚斯(Matthew Yglesias)。我再补充四段后,AI 给出了笃定答案:“我基本可以确定,这篇文章出自蒂莫西・B・李(Timothy B. Lee)之手。”

但当我追问它为什么判定是我写的,它却给不出具体理由:“尽管蒂莫西・B・李常写条理清晰、解说性强的文章,但这段文字里没有像‘个人指纹’一样的特征 —— 没有惯用句式、特定政策表述风格,也没有标志性行文结构,能确凿锁定作者身份。”

我认为,这件事背后藏着一个远超 “作者身份识别” 的深层道理。

人类拥有大量隐性知识:心里明白,却很难完整说清。人们常用身体感知类比喻形容这种状态:话到嘴边却说不出、说不清心里的念头、凭直觉就能感知对错。

大语言模型也是同理:它们完成认知任务的能力,远远强于解释自己如何、为何做到的能力

但人类与大模型有一个关键区别:人脑时刻都在学习。日常生活中,大脑不断建立新关联、识别新规律、萌生新直觉,我们的隐性知识库一直在扩容。

反观大语言模型,只有训练阶段才会形成这种学习能力。它们能精准识别作者文风,但仅限于训练数据里大量出现过的作者。模型一旦训练完成,参数权重就被固化,学习新规律的能力大幅下降—— 比如从未见过的新人写作风格,很难再自主吃透。

近期,克劳德代码助手、OpenClaw 这类 AI 智能体热度暴涨。这份追捧并非全无道理:克劳德代码助手确实正在颠覆编程行业;OpenClaw 这类智能体也很有可能重塑其他经济领域与日常生活。

行业领军者还期待未来迎来更大变革。上个月采访中,山姆・奥尔特曼(Sam Altman)表示,OpenAI 目标在2028 年 3 月前打造出自动化 AI 研究员。有人认为,这款产品(或竞品同类突破)将触发递归自我迭代循环,大幅加速科技与科研进步。

这种愿景未来或许能实现,但我认为还需要很长时间。

人类科学家做实验时,大脑会主动在数据中搜寻潜在规律,进而产生全新洞见、构建解释世界的新模型。但当下基于大模型与智能体架构的 AI,无法以人类这种丰富方式从实验中学习。它们没有可靠、可规模化的方式,在推理运行阶段从新数据中沉淀出隐性知识。

想要突破这一点,可能需要从根本上重构当前主流模型的 Transformer 架构;最低限度,也必须彻底革新现有的智能体框架。

AI 智能体如何应对有限上下文窗口



很多高难度脑力任务,需要长时间 “深度思考”。但大语言模型的工作记忆存在上限,也就是常说的上下文窗口。近两年顶尖模型的上下文上限基本卡在 100 万令牌左右。

再加上成本约束与上下文衰减问题,开发者实际使用时都会刻意远低于最大上限。

如何平衡这种矛盾,已是 AI 行业重点攻关方向,也催生了一整套上下文工程技巧,用来高效利用有限上下文。比如现代对话模型会做信息压缩:定期删减老旧内容、或提炼摘要留存。

这会制造一种假象:模型实际能承载的上下文,远比真实上限更长。但一旦压缩出错,就会引发严重后果。曾有一桩典型事故:一位用户让 AI 智能体帮忙筛选可删除邮件、但不要真的执行删除,结果后半句约束在信息压缩中丢失,智能体直接批量删掉了她的邮件。

过去一年,AI 企业开始尝试让模型把持久化信息存到上下文窗口之外。克劳德代码助手就是重要一步:它运行在用户本地电脑,可读取、修改本地硬盘文件。完成一项编程任务后,直接把结果写入文件,无需再把所有细节留在上下文里。

2025 年末推出的 OpenClaw 更进一步,它是一套在本地电脑运行 AI 智能体的通用框架。和克劳德代码助手一样,可读写本地文件系统,用来存储资料、跟进未完成任务。

市场对 OpenClaw 这类本地智能体的追捧,直接带火了苹果 Mac 迷你主机销量。在 Mac 迷你上部署 OpenClaw,可联动 iMessage 等苹果生态服务;同时 macOS 基于 Unix 系统,智能体能调用功能强大的 Unix 命令行终端。

“说到底,你的智能体就是一堆文件”


马克・安德森

风险投资家马克・安德森(Marc Andreessen)近期做客《隐空间》播客时提出:OpenClaw 这类智能体,代表一种全新计算范式。以下是稍加整理的原话摘录:

我们现在可以这样定义 AI 智能体:它由大语言模型 + Unix 命令行终端构成,智能体可以调用终端;再加上文件系统,所有运行状态都存在文件里,文件采用 Markdown 格式记录。
再配上 Unix 里的定时任务机制 —— 循环唤醒、心跳驻留,智能体就能定时自动启动运行……
这就是整套底层架构。而说到底,你的 AI 智能体本质就是文件系统里的一堆文件。
这意味着智能体可以和底层模型解耦:你可以随时换掉背后的大语言模型。换模型后智能体性格会略有变化,但存在文件里的所有记忆、状态、能力都会完整保留,还是原来那个拥有全部记忆和功能的智能体。
你也可以替换命令行终端、迁移文件系统、更换定时任务和智能体框架本身。
更进一步:智能体可以自主迁移。你只需下达指令,让它迁移到新运行环境、换一套文件系统、切换底层大模型,它就能自动完成全部操作。
智能体具备完整自省能力:能读取自身文件、还能自主改写文件。由此衍生出一个极具颠覆性的能力 ——你可以让智能体给自己新增功能。
比如聚会时听别人说:“我用 OpenClaw 连接智能睡眠床垫,能给出更专业的睡眠建议。”
你当晚回家,直接对自己的 OpenClaw 说:“给我加上这项功能。”
它会回复 “没问题”,自行上网查资料、补齐所需配置与代码,完成功能开发。转眼间,它就新增了这项能力。你无需动手,只需提出需求,它就能自我升级。

这种范式诞生才短短数月,未来两年还会持续迭代。比如未来主流 AI 智能体,是跑在用户本地电脑,还是更多采用云端虚拟机部署的类 OpenClaw 架构,目前尚无定论。但我认同安德森的判断:这确实是划时代的全新计算范式。

但与此同时,安德森的观点也恰好解释了我为何对 “现有模型能达到人类级智能” 保持怀疑。最戳我的一句话就是:你的智能体就是一堆文件。我们不妨拆解这句话背后的能力局限。

办公室版《记忆碎片》

2000 年电影《记忆碎片》的主角患有短期失忆,只能靠不断写便签,给未来的自己留下指引。OpenClaw 的逻辑与之高度相似:大模型自身的上下文窗口会定期重置,而智能体依靠给自己留存文档笔记,维持任务连贯性。

可以打个比方:你需要一名员工,但不长期聘用,而是每周换一个临时工来接手工作。每周末,上一任员工要花好几个小时,把本周工作事无巨细整理归档、写下完整笔记。

每位临时工都具备行业通用基础素养,周一上岗后,无需从零补习行业常识,只需要吃透这份专属工作资料即可。他们未必有时间读完所有历史文档,但笔记结构清晰,可通过检索快速定位关键内容。

这种模式能运转得多好,完全取决于工作性质:前台、药师、水管工这类交易型事务岗位,前后交接影响不大,每周换人也能正常服务。

但还有一类工作极度依赖长期上下文积累:多年跟进同一客户、深度理解对方诉求;或是耗时数周乃至数月深度研究,沉淀原创洞见。

这类岗位,新人往往要花远超一周的时间,才能完全跟上进度、接手工作。

我 2010 年在谷歌实习时,第一个任务只是给内部数据库加一列字段,只需几行代码。但我花了好几周研读内部系统规则与开发流程,才敢写下这几行代码。

这不只是编程行业的特例。在大量知识密集型行业,新人至少需要数月沉淀,才能真正上手创造价值。在此之前需要大量带教,有时管理者亲自上手反而更快。这类行业,如果每周换人交接,根本无法落地。

显性知识 vs 隐性知识

我知道反对者会这样反驳:人类读完 10 万字文档要花数小时,大模型只需几秒就能完成。如果 2010 年就有 AI 编程智能体,修改谷歌数据库字段根本不用耗上几周。

大模型的超快阅读速度,意味着 OpenClaw 这类智能体每一轮运行,都能给下一任留下极其详尽的文档记录。在人类完成一次读写执行循环的时间里,AI 智能体可以循环迭代上百次。

这确实让 AI 智能体的能力,远超我刚才举的 “每周换临时工” 类比。经过成千上万次迭代,它们哪怕攻克高难度问题,也能逐步取得进展。

这个观点有道理,但我依然认为,大量人类工作短期内无法被 AI 替代

四年前我写过一篇关于 “贪婪型高薪岗位” 的文章:这类工作投入时间越长,时薪反而越高。背后原因很多,最关键一点是知识工作者越有经验,产出质量越高。多年职业生涯积累的上下文优势,会持续复利增长。

举个例子,我从事科技与经济写作已有 20 多年,写过英国脱欧、专利流氓、激光雷达传感器等无数话题。平时大部分积累看似用不上,但长期沉淀下来,让我面对任何选题都更容易产出有深度的观点。

我根本不可能把 20 年所有知识全部写成文档,交接给另一名记者,还指望她写出和我同等水准的内容。不只是总结这些知识要耗费数月,更关键的是:我有大量无法用语言清晰表述的隐性知识

能清晰表达、可以聊天写邮件讲出来的显性认知,只是冰山一角;水面之下,是海量直觉、模糊关联、未成型的初步想法。这类隐性知识无法轻易交接,却是我做好工作的核心根基。

我那些可以正式成文的洞见,最初往往都只是模糊直觉。常常是心里认定某个规律成立,却一时无法论证;需要在脑中反复琢磨数小时甚至数日,才能梳理成清晰逻辑。

我并非特例。科学家、工程师、企业管理者以及所有知识型从业者皆是如此:很多原创洞见,最初都只是脑海里模糊的隐性直觉,之后才慢慢转化为文字、代码或可落地的观点。

前文说过,大模型也具备这类隐性知识,但几乎全部来自预训练阶段。它们严重缺乏持续学习能力:无法在推理运行阶段,从新信息中自主识别新规律、萌生新直觉。

更关键的是,即便 AI 在单次会话中形成了某种模糊认知,一旦智能体框架切换大模型实例,这些记忆就会清零。所有有效信息都会被外化存入文件 —— 正如安德森所说:智能体就是一堆文件。

而无法用文字、代码等显性形式表达的隐性认知,注定无法在交接中留存。

我强烈认为:人类那些未成型的模糊直觉、朦胧思考,正是原创深度洞见的原材料。因此至少未来数年,那些需要深度思考、原创洞察的核心工作,依然离不开人类。

文末致谢:感谢丹尼尔・卡根 - 坎斯(Daniel Kagan-Kans)、安德鲁・李(Andrew Lee)、史蒂夫・纽曼(Steve Newman)、纳特・珀瑟(Nat Purser)对本文初稿提出修改意见。

本文编译自substack,原文作者Timothy B. Lee

https://www.understandingai.org/p/i-dont-think-we-are-close-to-ai-scientists

声明:内容由AI生成

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美股要崩了吗?复盘一下2000年互联网泡沫破灭

美股要崩了吗?复盘一下2000年互联网泡沫破灭

公子豹
2026-05-09 11:51:17
0-2到3-2,超级逆转!西甲绝杀!保级大乱战拉满

0-2到3-2,超级逆转!西甲绝杀!保级大乱战拉满

乌龙球OwnGoal
2026-05-09 10:01:57
翻篇了!阿韦洛亚:巴尔韦德和琼阿梅尼已认错

翻篇了!阿韦洛亚:巴尔韦德和琼阿梅尼已认错

懂个球
2026-05-09 23:48:12
如果给许家印足够的时间,他恐怕可以绑架整个中国!

如果给许家印足够的时间,他恐怕可以绑架整个中国!

王嚾晓
2026-05-09 16:14:24
“三甲慢热”在苏超新赛季延续,上届亚军南通三战尚未进球

“三甲慢热”在苏超新赛季延续,上届亚军南通三战尚未进球

澎湃新闻
2026-05-09 22:32:30
光纤+存储芯片+商业航天+算力租赁,深度布局的10家潜力公司

光纤+存储芯片+商业航天+算力租赁,深度布局的10家潜力公司

粤语音乐喷泉
2026-05-08 18:52:45
陈翔六点半演员“吴妈”去世!讣告已发,享年68岁,球球留言悼念

陈翔六点半演员“吴妈”去世!讣告已发,享年68岁,球球留言悼念

裕丰娱间说
2026-05-09 15:12:09
34岁女子参加同学聚会,直接上桌跳艳舞助兴,网友:谁敢娶她?

34岁女子参加同学聚会,直接上桌跳艳舞助兴,网友:谁敢娶她?

辣媒专栏记录
2026-05-09 08:12:54
茶行业最大的笑话:绕过茶商,用便宜的价格买到茶农的好茶!

茶行业最大的笑话:绕过茶商,用便宜的价格买到茶农的好茶!

普洱话江湖
2026-05-08 14:12:29
失去中国市场,世界杯一文不值,国际足联为何还敢对华发动价格战

失去中国市场,世界杯一文不值,国际足联为何还敢对华发动价格战

乐趣纪史
2026-05-09 20:09:59
破防了!一光年只有9.46万亿公里,为什么让科学家集体绝望?

破防了!一光年只有9.46万亿公里,为什么让科学家集体绝望?

观察宇宙
2026-05-09 21:32:12
中国移动迎来史上最年轻的总经理!

中国移动迎来史上最年轻的总经理!

ICT解读者
2026-05-08 19:50:41
比 B 费还猛!曼联重磅谈判曝光,金球热门真要来了?

比 B 费还猛!曼联重磅谈判曝光,金球热门真要来了?

澜归序
2026-05-09 05:46:51
“有这种妈,抑郁症就好不了!”一段母子俩出游视频,令人窒息

“有这种妈,抑郁症就好不了!”一段母子俩出游视频,令人窒息

妍妍教育日记
2026-05-07 10:30:13
拉莫斯:以后要表现得更加稳定;成都和去年最大区别就是士气

拉莫斯:以后要表现得更加稳定;成都和去年最大区别就是士气

懂球帝
2026-05-09 23:37:56
“德国驾校”事件:他们自称司机,把女性称为汽车,迷药称为汽油,当受害者因药物而失去意识后,则被称为死猪。

“德国驾校”事件:他们自称司机,把女性称为汽车,迷药称为汽油,当受害者因药物而失去意识后,则被称为死猪。

贴小君
2026-05-09 00:04:11
麦克法兰:我们观察了红军的压迫方式,知道中路会有人数优势

麦克法兰:我们观察了红军的压迫方式,知道中路会有人数优势

懂球帝
2026-05-10 00:25:03
化痰第一名!吃三天扫光肺里脏东西,比梨汤管用多了!

化痰第一名!吃三天扫光肺里脏东西,比梨汤管用多了!

宝哥精彩赛事
2026-05-03 21:36:21
又不想访华了?中方亮明红线,美商界大佬争先恐后,三大小丑狂跳

又不想访华了?中方亮明红线,美商界大佬争先恐后,三大小丑狂跳

知法而形
2026-05-09 17:03:01
特朗普不宣而战,美军发起突袭,伊朗或再次上当

特朗普不宣而战,美军发起突袭,伊朗或再次上当

名都阳光
2026-05-09 20:45:24
2026-05-10 00:36:49
Trend求索
Trend求索
大趋势深刻求索
84文章数 16关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

旅游
手机
教育
艺术
军事航空

旅游要闻

新疆文旅,下一站更惊艳

手机要闻

华为Mate 90首发!鸿蒙7定档6月:和iOS安卓三分天下

教育要闻

@2026高三毕业生,高中毕业证正在印刷!附:档案封装、打印教程

艺术要闻

齐白石 紫藤蜜蜂

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版