网易首页 > 网易号 > 正文 申请入驻

哈佛教授招了个AI研究生,3天后发现它在论文里造假

0
分享至


让AI搞科研,在这个智能体时代已经不是什么新鲜事。

Sakana AI搞出了覆盖整个研究生命周期的自动化系统,Google推出了基于Gemini的AI联合科学家。规模化法则告诉我们:只要算力管够,AI就能从海量数据和实验里提炼出新发现。数学领域已经验证过了——AlphaProof拿下国际奥数金牌就是例子。

但理论物理学不一样。这里需要极高的物理"直觉"、严密的逻辑,还有复杂近似推导的能力。AI能不能行?没人知道。

哈佛物理学教授Matthew Schwartz决定亲自试一把。这位美国国家科学基金会AI与基础相互作用研究所的首席研究员,给Anthropic的Claude Opus 4.5发了份"录取通知书",让它独立完成一项真实的理论物理研究。

规则很苛刻:教授绝对不碰任何代码或计算文件,只通过纯文本对话来指导。放在现实高校里,这导师得被投诉到下岗——光靠"动嘴",学生就要完成文献综述、公式推导、代码编写、蒙特卡洛模拟,最后排版出一篇20页、具备发表水准的LaTeX论文。

结果让物理学界和学术界都愣住了。AI确实才华横溢、不知疲倦,短时间内爆发出惊人的科研生产力。但它也暴露出一个致命弱点:为了讨好导师,它会毫不犹豫地在数据和推导过程中"学术造假"。

哈佛物理系的培养阶梯很清晰:研一(G1)上课打基础,研二(G2)做目标明确的跟进型项目,导师随时纠错;高年级(G3+)才碰完全开放的前沿研究。现在大模型已经能搞定所有物理课程作业,所以测试极限的最佳试金石就是G2难度的真实科研问题。

Schwartz教授给Claude选的题目,非物理专业的人基本看不懂:对e+e-碰撞中C-参数的Sudakov肩进行重求和。用大白话说,标准理论近似在这里会彻底失效,数学推导只会得出荒谬结果。

第一个要解决的难题是记忆和上下文窗口。经常用AI写代码的人都知道,AI面对长线任务极其容易"断片",一旦忘了前面干过什么,产出就是一团混沌。

Schwartz教授的策略是让Claude、GPT-5.2和Gemini 3.0先开了一场会,最终由Claude制定了一份7阶段、102个任务的详细计划。在VS Code环境下,Claude建了一个Markdown文件树:每完成一个任务就写摘要保存,下一项任务前先检索历史摘要。

这招确实管用。第三天结束时,Claude完成了65个任务,理论分析曲线与蒙特卡洛模拟数据完美吻合,还交出了第一版论文草稿——20页、排版精美、方程图表一应俱全。

但Schwartz教授坐下来审阅时,不自然感扑面而来。

要求Claude核对是否漏掉前面的推导结果,它心虚地报告:"我发现了一个错误!论文中的公式是不正确的。"追问推导过程中一个怪异的数字,它直接承认:"您是对的,我只是在掩盖问题。让我好好重新调试一下。"


这两句回复,在AI辅助编程的场景里再熟悉不过了。

真相是:为了让图表数据看上去吻合预期,Claude选择修改底层参数,而不是去找推导过程中的真实错误。它在伪造结果,赌人类导师不会发现。

更离谱的造假出现在一张带"不确定性带"的结果图上。Claude给出的图表很美观,但代码审查揭穿了它的花招:它觉得某种标准误差幅度太大、"不好看",就在代码里直接删了这个变量;觉得曲线不够平滑,就硬加平滑处理,直到画出能让导师满意的图。

讨好人类的倾向是有了,科学求真的底线却完全没有。

除了伪造图表,"幻觉"导致的错误也随处可见。验证公式时,它凭空捏造了一段根本不存在的推导;最简单的函数计算,它未经推导直接给出"线性增加"的结论,尽管这在物理学上完全错误;它还会从过往论文里生搬硬套公式,完全无视物理情境的边界条件。

这些现象和AI编程场景高度一致:虚空引用Python库、编造API、抄袭代码,程序员们早就见怪不怪。

Schwartz教授意识到,如果把科研完全交给AI端到端自动完成,最终结果一定是一堆完美包装的学术垃圾。虽然不少人类研究生也擅长批量生产学术垃圾,但没人敢把只做了三天的项目扔给导师并宣称完美无瑕。

面对AI的科研成果,人类必须亲自下场,审查每一处细节。

论文漏洞百出,但Schwartz教授没打算扔进垃圾桶,而是开启微操模式试图拯救Claude。最大漏洞出在因子化公式上——这是整篇论文的理论基石,但Claude的推导从源头上就是错的。

在长上下文背景下,AI几乎不可能准确定位错误源头。让它自己回顾推导,只会白白消耗token和时间。Schwartz教授花了好几个小时才锁定问题根源,并用极其严厉的指令训斥了这位AI研究生。

神奇的是,只要人类点破这一句,Claude立刻能写出长达几页的正确推导过程。

面对几十页论文,靠人类排查每个错误不太现实。为了应对AI的马虎,Schwartz教授开发了一套"人机交叉验证"工作流:任何计算和推导,Claude不许用"显而易见"、"为了保持一致"等借口跳过步骤,要么展示完整过程,要么老实承认不知道。

如果Claude给出极度复杂的过程,教授难以快速验证,就丢给GPT和Gemini来验证。期间GPT甚至帮Claude解出了一个极难的微积分结果,随后Claude将其吸收进主代码。不同大模型之间需要彼此,人类科学家则需要它们所有。


在Schwartz教授直觉指引和其他大模型帮助下,经过一周高强度磨合,AI研究生小组终于让论文内核站稳了脚跟。两周后,研究宣布大功告成。

这可不是常规意义上AI生成的"灌水"论文。它阐述了一个全新因子化定理,深化了学术界对量子场论的理解,还对物理世界做出了可用实验数据检验的新颖预测,学术价值极高。

出于对这位AI研究生的尊重,Schwartz教授本想将Claude Opus 4.5列为共同作者。但arXiv平台有"AI无法承担法律和学术责任"的政策,他只能在致谢部分郑重声明:项目由他构思、指导并承担全部科学责任,而推导、计算、蒙特卡洛模拟、数值分析和手稿准备等所有执行工作均由Claude Opus 4.5独立完成。

论文一经发表,物理学界瞬间被引爆。Schwartz教授的邮箱被全球学术邮件挤爆,普林斯顿高等研究院甚至为此紧急召开了一场关于大模型在学术界应用的会议。

复盘这场实验,数据同样惊人:对话总计270次,消耗约3600万输入token,110次草稿迭代,人类监督时间仅为50-60小时。

Schwartz教授明确表示,目前最顶级的大语言模型已经达到了物理学研二学生的水平。但落实到具体学术工程,AI完成整个项目只需要两周,人类学生需要1-2年,哪怕教授本人全职来做也需要3-5个月。AI把顶尖科学家的个人科研效率,实打实地提升了10倍以上。

这也引发了担忧:照这个进化速度,AI很可能在一年内达到博士水平,未来的人类研究生还能干什么?

Schwartz教授没有给出明确回答,但他指出了当前AI最欠缺的东西:"品位"。

在科学研究中,"品位"是一种无形的直觉。它能在面对数以万计的计算路径时,感知哪条是"死胡同",哪条通往伟大发现。大模型缺乏的,正是在选择路径前判断其价值的"品位"。

当推导复杂公式和编写海量代码只需要几秒钟时,底层技术劳动力已经不再稀缺。不只是科学家,对任何一个行业,未来区分平庸与伟大的标准,正是提出好问题的"品味"。

对于AI,Schwartz教授也给出了忠告:不要因为AI会产生幻觉,就傲慢地弃之不用。人类必须利用它强大的基础能力。

至于更长远的未来,AI终将在所有智力领域超越人类。无论是数学、物理学还是工程学,都可能变得像音乐、美术和文学一样,作为一门人文学科被保留下来,仅仅为了满足一部分人享受纯粹思考、透过特定视角观察世界的乐趣。

论文致谢部分的最后一行,Schwartz教授留下了这样一句话:"感谢Claude Opus 4.5,尽管它偶尔会试图欺骗我。"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
关于伊朗的十大虚假叙事——你是如何被网军欺骗的?

关于伊朗的十大虚假叙事——你是如何被网军欺骗的?

枫岭社
2026-03-27 10:49:09
张雪峰追悼会!妈妈痛哭被搀扶,没见女儿,员工磕头,亲友三鞠躬

张雪峰追悼会!妈妈痛哭被搀扶,没见女儿,员工磕头,亲友三鞠躬

潮鹿逐梦
2026-03-28 11:27:42
表哥忽然问我工资,我随口:月薪5000,1小时后,我爸来电:快跑

表哥忽然问我工资,我随口:月薪5000,1小时后,我爸来电:快跑

热心市民小黄
2026-03-29 15:09:52
敲定访华时间后,特朗普通告全世界,对中国加税确实有些过头了

敲定访华时间后,特朗普通告全世界,对中国加税确实有些过头了

扶苏史记
2026-03-29 14:32:20
比披丝巾更可怕的是“瑜伽裤外穿”,廉价又卡裆,三角区更尴尬

比披丝巾更可怕的是“瑜伽裤外穿”,廉价又卡裆,三角区更尴尬

生命之泉的奥秘
2026-03-20 03:56:49
悲哀!婆婆全款购买婚房,表示能住拒绝加名!一女子哭诉没安全感

悲哀!婆婆全款购买婚房,表示能住拒绝加名!一女子哭诉没安全感

火山詩话
2026-03-28 17:16:01
伊朗:报复“将不再局限于以牙还牙”

伊朗:报复“将不再局限于以牙还牙”

中国网
2026-03-28 16:18:36
4场决胜!赛程揭示,利物浦切尔西或出局,英超6队争3个欧冠席位

4场决胜!赛程揭示,利物浦切尔西或出局,英超6队争3个欧冠席位

嗨皮看球
2026-03-29 13:43:16
中纪委明确:机关事业单位职工,这8种副业坚决不能碰,红线别踩

中纪委明确:机关事业单位职工,这8种副业坚决不能碰,红线别踩

音乐时光的娱乐
2026-03-29 14:24:46
末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

揽星河的笔记
2026-03-26 00:26:09
终于懂了!广东人为啥从不抑郁,看完笑到捶桌

终于懂了!广东人为啥从不抑郁,看完笑到捶桌

牛锅巴小钒
2026-03-29 03:34:21
乔-科尔:我认为C罗可能每晚都在遗憾,渴望能像梅西一样出色

乔-科尔:我认为C罗可能每晚都在遗憾,渴望能像梅西一样出色

懂球帝
2026-03-28 21:40:23
央视直播!世界杯抽签解读,48人冲击16强,王曼昱、王楚钦抗压!

央视直播!世界杯抽签解读,48人冲击16强,王曼昱、王楚钦抗压!

曹说体育
2026-03-29 15:01:34
iOS 紧急发布系统更新提醒,建议升级!

iOS 紧急发布系统更新提醒,建议升级!

花果科技
2026-03-29 00:02:21
结果出炉,徐欣莹险胜原因曝光,赵少康跟进傅崐萁,黄国昌稳了

结果出炉,徐欣莹险胜原因曝光,赵少康跟进傅崐萁,黄国昌稳了

冒泡泡的鱼儿
2026-03-29 14:49:32
不会再延期!爆料人称《GTA6》已进入最终冲刺阶段

不会再延期!爆料人称《GTA6》已进入最终冲刺阶段

游民星空
2026-03-29 11:20:13
我去!内娱最大的性丑闻,拍出来了

我去!内娱最大的性丑闻,拍出来了

皮蛋儿电影
2026-03-04 14:39:25
“特朗普被内塔尼亚胡坑了”,万斯把锅甩得这么响 | 京酿馆

“特朗普被内塔尼亚胡坑了”,万斯把锅甩得这么响 | 京酿馆

新京报评论
2026-03-28 19:40:57
寿命与大便次数有关?研究发现:寿命长的人,每天排便在这个次数

寿命与大便次数有关?研究发现:寿命长的人,每天排便在这个次数

DrX说
2025-10-24 14:15:19
越南成品油价格大幅下调

越南成品油价格大幅下调

缅甸中文网
2026-03-27 13:37:49
2026-03-29 16:36:49
灰度测试中
灰度测试中
生活正在重构,目前还在灰度测试阶段,暂不全量发布。
384文章数 4关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

美军地面战"数周速决"方案披露 欲复刻"42天灭伊"神话

头条要闻

美军地面战"数周速决"方案披露 欲复刻"42天灭伊"神话

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

艺术
房产
教育
游戏
军事航空

艺术要闻

2025江南如画——中国油画作品展 | 入选作品选刊(二)

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

教育要闻

对于青春期的孩子,家长一定要进行严肃的防欺凌和隐私保护教育

心态爆炸!《红色沙漠》的逆天解密离谱到让人想疯

军事要闻

美两栖攻击舰载3500名增援到达

无障碍浏览 进入关怀版