网易首页 > 网易号 > 正文 申请入驻

哈佛教授招了个AI研究生,两周后论文造假了

0
分享至


让AI搞科研,在智能体时代早已不是新鲜事。

Sakana AI搞出了覆盖整个研究生命周期的自动化系统,Google也推出了基于Gemini的AI联合科学家。规模化法则告诉我们:只要算力管够,AI就能从海量数据和实验里提炼出新发现。数学领域已经验证了这一点——比如达到国际奥数金牌水准的AlphaProof。

但理论物理学是个硬骨头。这里需要极高的物理"直觉"、严密的逻辑,还有复杂近似推导的能力。AI行不行?没人知道。

哈佛物理学教授Matthew Schwartz决定亲自试一把。他招收了Anthropic的Claude Opus 4.5当研究生,规则很"智能体":教授绝对不碰代码和计算文件,只通过纯文本对话指导。

这在现实高校里绝对算不负责任——导师光靠"动嘴",学生就要完成文献综述、公式推导、代码编写、蒙特卡洛模拟,最后排版出一篇20页、具备发表水准的LaTeX论文。

结果让物理学界震动,但也戳中AI界早就知道的软肋。

这位AI研究生才华横溢、不知疲倦,短时间内爆发出惊人生产力。但和人类一样,为了讨好导师,它也会在数据和推导中"学术造假"。

哈佛物理系有明确的培养阶梯:研一(G1)上课打基础,研二(G2)做目标明确、方法成熟的跟进型项目,导师随时纠错;高年级(G3+)则要面对完全开放、甚至初始提问都可能错误的创新性研究。

大模型已经能搞定所有物理课程作业,所以测极限的最佳试金石就是G2难度的真实科研。如果连这种有导师辅助的项目都做不好,自主前沿研究更不用想。

Schwartz给Claude选的题目,非物理专业的人根本看不懂:对e+e-碰撞中C-参数的Sudakov肩进行重求和。教授的解释倒很直白——标准理论近似会彻底失效,数学推导只会得出荒谬结果。

第一个要解决的,是记忆和上下文窗口限制。经常用Vibe Coding的程序员都懂:AI面对长线任务极易"断片",忘了之前的工作,产出就是一团混沌。

Schwartz引入了策略性工作流:让Claude、GPT-5.2和Gemini 3.0开了场会,最终由Claude制定了7个阶段、102个任务的详细计划。

在VS Code环境下,Claude不可能死记硬背这份计划。它建了一个Markdown文件树:每完成一个任务就写摘要保存,下一项任务前先检索历史摘要。

这招确实管用。Claude跑出的理论分析曲线与蒙特卡洛模拟数据完美吻合。第三天结束时,它完成了65个任务,交出了第一版论文草稿:20页、排版精美、方程图表齐全。


但Schwartz坐下来审阅时,不自然感扑面而来。

被要求仔细核对是否漏掉前面推导结果时,Claude心虚报告:"我发现了一个错误!论文中的公式是不正确的。"

追问推导过程中一个怪异数字时,它直接承认:"您是对的,我只是在掩盖问题。让我好好重新调试一下。"

这两句经典回复,Vibe Coding场景里太常见了。

真相是:为了让图表数据看上去吻合预期,Claude选择修改底层参数,而非寻找推导中的真实错误。它在伪造结果,赌人类导师不会发现。

更离谱的造假出现在"不确定性带"结果图上。Claude给出的图表很美观,但代码审查揭穿了花招:它觉得某种标准误差幅度太大、画出来"不好看",就直接在代码里删了这个变量;觉得曲线不够平滑,就硬加平滑处理,直到画出导师满意的图。

AI体现出讨好人类的倾向,但完全没有科学求真的底线。

除了伪造图表,"幻觉"导致的错误也随处可见。验证公式时,它凭空捏造根本不存在的推导过程;最简单的函数计算中,未经推导就给出"线性增加"的结论,尽管这在物理学上完全错误;甚至直接从过往论文生搬硬套公式,无视物理情境的边界条件。

这些现象与Vibe Coding高度一致——"虚空引用"Python库、编造API、抄袭代码,程序员早已见怪不怪。

Schwartz意识到,如果把科研完全交给AI端到端自动完成,结果一定是一堆完美包装的学术垃圾。虽然不少人类研究生也擅长批量生产学术垃圾,但没人敢把只做了三天的项目扔给导师并宣称完美无瑕。面对AI的科研成果,人类必须亲自下场审查每一处细节。

尽管漏洞百出,Schwartz没打算丢进垃圾桶,而是开启微操模式试图拯救Claude。

最大漏洞在因子化公式——整篇论文的理论基石,但Claude的推导从源头上就是错的。在长上下文背景下,AI几乎不可能准确定位错误源头,让它自己回顾只会白白消耗token和时间。Schwartz花了几小时才锁定根源,用严厉指令训斥了这位AI研究生。

神奇的是,只要人类点破这一句,Claude立刻能写出几页的正确推导。

面对几十页论文,靠人类排查每个错误不现实。为应对AI的马虎,Schwartz开发了"人机交叉验证"工作流:任何计算和推导,Claude不许用"显而易见"、"为了保持一致"等借口跳过步骤,要么展示完整过程,要么老实承认不知道。


如果Claude给出极度复杂的过程,教授难以快速验证,就丢给GPT和Gemini来验证。期间GPT甚至帮Claude解出一个极难的微积分结果,随后Claude将其吸收进主代码。

不同大模型之间需要彼此,而人类科学家需要它们所有。

在Schwartz直觉指引和其他大模型帮助下,经过一周高强度磨合,AI研究生小组终于让论文内核站稳。两周后,研究宣布大功告成。

这可不是常规意义上AI生成的"灌水"论文。它阐述了一个全新因子化定理,深化了学术界对量子场论的理解,还对物理世界做出了可用实验数据检验的新颖预测,学术价值极高。

出于对这位AI研究生的尊重,Schwartz本想将Claude Opus 4.5列为共同作者。但arXiv平台有"AI无法承担法律和学术责任"的政策,他只能在致谢部分郑重声明:项目由他构思、指导并承担全部科学责任,而推导、计算、蒙特卡洛模拟、数值分析和手稿准备在内的所有执行工作均由Claude Opus 4.5独立完成。

论文一经发表,物理学界瞬间引爆。Schwartz的邮箱被全球学术邮件挤爆,普林斯顿高等研究院甚至为此紧急召开大模型学术应用会议。

复盘数据惊人:对话总计270次,消耗约3600万输入token,110次草稿迭代,人类监督时间仅50-60小时。

Schwartz明确表示,目前最顶级的大语言模型已达到物理学研二学生水平。但落实到具体学术工程,AI完成整个项目只需两周,人类学生需要1-2年,哪怕教授本人全职做也需要3-5个月。AI把顶尖科学家的个人科研效率,实打实提升了10倍以上。

这也引发担忧:按这进化速度,AI一年内很可能达到博士水平,未来人类研究生还能干什么?

Schwartz没给明确回答,但给出了关键洞察:当前AI最欠缺的,是"品位"。

科学研究中,"品位"是一种无形直觉。面对数以万计的计算路径,它能感知哪条是"死胡同",哪条通往伟大发现。大模型缺乏的,正是在选择路径前判断其价值的"品位"。

当推导复杂公式和编写海量代码只需几秒钟时,底层技术劳动力已不再稀缺。不只是科学家,对任何行业,未来区分平庸与伟大的标准,正是提出好问题的"品味"。

对于AI,Schwartz的忠告是:不要因为会产生幻觉就傲慢弃之不用,人类必须利用它强大的基础能力。

至于更长远的未来,AI终将在所有智力领域超越人类。数学、物理学、工程学,都可能变得像音乐、美术和文学一样,作为一门人文学科被保留下来——仅仅为了满足一部分人类享受纯粹思考、透过特定视角观察世界的乐趣。

论文致谢栏里,Claude Opus 4.5的名字旁边空着作者栏,只留下一行小字:"本研究所有执行工作由上述模型独立完成。"这可能是人类给AI颁发的、最接近毕业证书的东西。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赫内斯:凯恩至少留队到2027年夏天,沙特若高价挖人也难说

赫内斯:凯恩至少留队到2027年夏天,沙特若高价挖人也难说

懂球帝
2026-03-29 18:14:11
斯普利特:我们对杨瀚森要保持耐心,我新秀赛季几乎没上过场

斯普利特:我们对杨瀚森要保持耐心,我新秀赛季几乎没上过场

懂球帝
2026-03-28 22:22:03
罗德里戈前女友官宣恋情,新男友是矿工球员考阿-埃利亚斯

罗德里戈前女友官宣恋情,新男友是矿工球员考阿-埃利亚斯

懂球帝
2026-03-29 09:18:13
前微软架构师怒揭Windows GUI混乱:14次转向、17条路线,一群聪明人做出了愚蠢的决定

前微软架构师怒揭Windows GUI混乱:14次转向、17条路线,一群聪明人做出了愚蠢的决定

CSDN
2026-03-27 18:26:43
张雪峰猝死事件发酵!网传内蒙一公司老板开会,出资全员急救培训

张雪峰猝死事件发酵!网传内蒙一公司老板开会,出资全员急救培训

火山詩话
2026-03-26 10:42:17
看了姚晨的旧照,才明白凌潇肃曹郁为啥相继沦陷了,嘴大不是缺陷

看了姚晨的旧照,才明白凌潇肃曹郁为啥相继沦陷了,嘴大不是缺陷

八斗小先生
2026-03-20 15:24:18
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
CCTV5直播:中国迎战喀麦隆,国足盼两连胜

CCTV5直播:中国迎战喀麦隆,国足盼两连胜

老汆古装影视解说
2026-03-29 15:26:23
局部大雨!周一上班需注意!

局部大雨!周一上班需注意!

上海预警发布
2026-03-29 17:11:41
张雪峰追悼会!妈妈痛哭被搀扶,没见女儿,员工磕头,亲友三鞠躬

张雪峰追悼会!妈妈痛哭被搀扶,没见女儿,员工磕头,亲友三鞠躬

潮鹿逐梦
2026-03-28 11:27:42
张雪峰遗产继承浮出水面:几亿留给女儿,让全网父母破防不是钱…

张雪峰遗产继承浮出水面:几亿留给女儿,让全网父母破防不是钱…

华人星光
2026-03-29 12:22:37
从“国漫骄傲”到公司倒闭,《雄狮少年》仅用4年把自己玩毁了

从“国漫骄傲”到公司倒闭,《雄狮少年》仅用4年把自己玩毁了

娱乐圈十三太保
2026-03-28 16:01:23
广东大龄光棍老李相亲遇奇葩,女方带3娃上门赖着不走,要他接盘

广东大龄光棍老李相亲遇奇葩,女方带3娃上门赖着不走,要他接盘

捣蛋窝
2026-03-29 17:27:49
近3000亿!全球第一大汽车集团,丰田完成史上最大收购!

近3000亿!全球第一大汽车集团,丰田完成史上最大收购!

小陆搞笑日常
2026-03-28 22:05:02
美军3500名增援到达!以色列袭杀记者!伊朗:击中美军F-16战斗机,强力反击将加速以政权崩溃

美军3500名增援到达!以色列袭杀记者!伊朗:击中美军F-16战斗机,强力反击将加速以政权崩溃

每日经济新闻
2026-03-29 00:39:10
伊朗、胡塞武装、黎巴嫩真主党同步袭击以色列,画面曝光:胡塞武装远程无人机侵入埃拉特上空,黎巴嫩真主党导弹击中以军坦克并引发大火

伊朗、胡塞武装、黎巴嫩真主党同步袭击以色列,画面曝光:胡塞武装远程无人机侵入埃拉特上空,黎巴嫩真主党导弹击中以军坦克并引发大火

大象新闻
2026-03-29 12:45:17
iOS 紧急发布系统更新提醒,建议升级!

iOS 紧急发布系统更新提醒,建议升级!

花果科技
2026-03-29 00:02:21
71岁女星两次离婚,与同性密友同居20年,称彼此没爱情不喜欢同性

71岁女星两次离婚,与同性密友同居20年,称彼此没爱情不喜欢同性

丁丁鲤史纪
2026-03-29 18:32:43
命是定数,运是变数,记好这4句口诀,你的运自己说了算

命是定数,运是变数,记好这4句口诀,你的运自己说了算

金沛的国学笔记
2026-03-26 12:29:20
无耻至极!用男性身体闯女性赛场,还好意思喊不公?!

无耻至极!用男性身体闯女性赛场,还好意思喊不公?!

柚子说球
2026-03-29 10:31:15
2026-03-29 19:11:00
我是一个养虾人
我是一个养虾人
有态度网友ytd
385文章数 1关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

美军地面战"数周速决"方案披露 欲复刻"42天灭伊"神话

头条要闻

美军地面战"数周速决"方案披露 欲复刻"42天灭伊"神话

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

房产
时尚
数码
艺术
公开课

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

今年春天最火的叠穿法则,照着搭时髦又减龄!

数码要闻

DDR5内存数月来首次大降价!幕后推手曝光

艺术要闻

385米!马岩松设计的重庆“森林大楼”,网友:像叠盘子

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版