网易首页 > 网易号 > 正文 申请入驻

GPT-5怎么突然会解物理难题了?

0
分享至

一个理论物理学家把最硬的论文喂给AI,30分钟后拿到了完整推导。同行还在争论AI能不能写邮件时,他已经看到了更大的东西。

邮件写得再好,也不是重点


2024年初,Alex Lupsasca拿到GPT-5的第一反应和多数人不同。社交媒体上满是失望——"就这点提升?""写邮件也没好多少。"

他当时的想法很直接:GPT-3就能写邮件了,这还能怎么进步?

真正让他坐不住的是另一件事。他把自己花很长时间才完成的一篇核心论文丢给模型,30分钟后,完整的推导过程回来了。不是摘要,不是概述,是带计算的完整复现。

这个对比太刺眼。一边是日常任务的边际改善,一边是科学前沿的能力跃迁。Alex把这种现象叫做"锯齿边界"——用AI处理常规工作的人觉得提升有限,但 pushing the limits 的人发现,边界本身在向外移动。

从"做不到"到"11分钟":一次关键测试

GPT-5发布后不久,Alex设计了一个更刁钻的测试。他选了一篇刚发表的论文,问模型能不能解决其中的核心问题。

模型第一次拒绝了。没有答案。

OpenAI首席研究官Mark Chen介入后,换了一种方式:先给模型一道教科书级别的热身题,让它进入状态。这个"预热"技巧奏效了。重新投喂原问题后,GPT-5在11分钟内给出了完整结果。

关键细节:这篇论文的发表时间晚于模型的训练截止日期。模型没见过这道题。

Alex的原话是:"This changes everything." 一年前,大语言模型刚开始能做对数学;现在,它能复现他最难的论文,而所需时间只够买杯咖啡。

为什么物理学家群体反应冷淡?

Alex注意到一个矛盾现象。他自己立刻意识到AI的颠覆性,但物理学家同行和更广泛的学术圈态度冷淡,甚至怀疑。

这种分裂有迹可循。理论物理的研究节奏极慢:一个计算可能耗费数周,一篇论文可能打磨数年。当外部工具声称能压缩这个流程时,第一反应往往是防御性的——"它肯定漏掉了什么""这不算真正的理解"。

但Alex的视角不同。他在Vanderbilt大学休假期间,做出了一个决定:加入OpenAI,专门推动AI在物理推理上的边界。

他的背景支撑这个选择。早期职业生涯中,Alex在黑洞理解方面取得过突破,开发了Black Hole Explorer和一款iPhone应用,让普通用户能直观交互式地探索黑洞。2024年,他获得了基础物理新视野突破奖——这个被称为"物理学奥斯卡"的奖项,是早期理论物理学家能获得的最高荣誉之一。

从o3到GPT-5.5:能力曲线的加速

Alex与AI的第一次深度接触要追溯到更早。他向o3求助一个研究中的计算,原本需要数天的工作量,11分钟完成。

这个经历让他开始系统追踪模型的能力边界。一年半的时间里,他记录了多次跃迁:从"能做对数学"到"能复现完整论文",再到"能处理训练截止日期之后的新问题"。

GPT-5.5的发布把这条曲线推得更陡。Alex在播客中透露,模型在理论物理和量子引力领域开始产生新的结果——不是复现已知结论,而是推导出新结论。

这个区分至关重要。复现是验证,推导是创造。如果AI开始参与创造,理论物理的生产函数将被重写。

预热技巧背后的提示工程

回到那次关键测试。为什么简单的"预热"能让模型从拒绝回答到完美解决?

Alex和Mark Chen发现的路径是:先投喂一道结构相似但难度较低的教科书问题,让模型激活相关的推理模式,再切入目标问题。这类似于人类学者的思维热身——先回顾基础框架,再处理复杂变体。

这个发现对实际使用有直接影响。它意味着当前模型的能力边界不是固定的,而是高度依赖交互方式。同样的模型, naive prompting 和 structured priming 可能产出完全不同的结果。

对于科研工作者,这提示了一种新的工作流:把AI当作需要"进入状态"的协作者,而非即时响应的工具。预热时间可能是几分钟,但回报是指数级的质量提升。

理论物理的临界点

Alex的判断很清晰:我们正处于理论物理推理方式的巨大变革边缘。

他的依据是能力曲线的斜率。一年前,LLM还在挣扎于基础数学的正确性;现在,它们开始参与前沿问题的求解。这个加速度本身暗示了某种相变——系统性质的根本转变。

具体会改变什么?Alex没有给出完整蓝图,但他的行动说明了一切:从学术休假转向全职加入OpenAI,把个人研究议程与AI能力开发深度绑定。

对于旁观者,这个选择传递的信号是:变革不是远景,而是正在发生的当下。等待"更成熟的工具"可能意味着错过窗口期。

给技术从业者的三个 takeaway

第一,关注"锯齿边界"的远端。日常任务的边际改善容易观察,但真正的能力跃迁发生在极限测试场景中。找到你领域内的"Alex式问题"——那些公认困难、耗时的任务,用最新模型反复测试。

第二,投资提示工程的结构化。预热技巧不是特例,而是一种可迁移的模式:低难度激活→高难度求解。设计你的交互流程,让模型有机会"进入状态"。

第三,重新评估时间成本。Alex的11分钟 vs. 数天,30分钟 vs. 长期工作,这些对比不是修辞,是可量化的生产力重构。计算你工作中哪些环节可能被类似幅度压缩,优先在这些领域建立AI工作流。

理论物理可能是第一个被深刻改变的学科,但不会是最后一个。Alex Lupsasca的追踪提供了一个模板:找到边界,测试边界,然后——如果边界真的在移动——全力押注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看人家苹果公司的OFFER,羡慕、嫉妒和恨吧…

看人家苹果公司的OFFER,羡慕、嫉妒和恨吧…

慧翔百科
2026-05-06 11:41:47
湖人不敌雷霆!证明3件事,1人被高估+老詹带不动,火箭成背景板

湖人不敌雷霆!证明3件事,1人被高估+老詹带不动,火箭成背景板

生活新鲜市
2026-05-06 11:31:23
郑丽文获大陆10项红利后赴美面谈,中美双方都想要

郑丽文获大陆10项红利后赴美面谈,中美双方都想要

与你挽月色清
2026-05-06 13:28:26
调整!5月6日央视转播世乒赛有变动,八强出炉,孙颖莎、王楚钦登场

调整!5月6日央视转播世乒赛有变动,八强出炉,孙颖莎、王楚钦登场

等等talk
2026-05-06 10:16:43
备战广东G1!赵睿曾凡博状态不错,李楠与麦基沟通,威廉姆斯踩场

备战广东G1!赵睿曾凡博状态不错,李楠与麦基沟通,威廉姆斯踩场

篮球资讯达人
2026-05-06 13:11:56
去医院千万不要和医生说的三句话,很多人张口来,难怪越治越麻烦

去医院千万不要和医生说的三句话,很多人张口来,难怪越治越麻烦

王二哥老搞笑
2026-05-05 20:00:43
阿森纳1-0马竞进决赛,20年等待或触及双冠王,阿尔特塔战术完胜

阿森纳1-0马竞进决赛,20年等待或触及双冠王,阿尔特塔战术完胜

云儿评球
2026-05-06 14:05:39
一定要告诉儿子:远离“低端”女孩,告诉女儿:远离“黑洞”男孩

一定要告诉儿子:远离“低端”女孩,告诉女儿:远离“黑洞”男孩

蓁蓁心理抚养
2026-04-26 12:30:03
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
郑丽文高调访美,反对统一?大陆划下两条红线,她的小算盘打错了

郑丽文高调访美,反对统一?大陆划下两条红线,她的小算盘打错了

天气观察站
2026-05-06 10:34:07
尬吹抓饭习俗是文化认知跑偏?

尬吹抓饭习俗是文化认知跑偏?

风铃草语
2026-05-06 06:30:28
今日通车!辰塔路(松汇西路—闵塔公路)中修工程竣工

今日通车!辰塔路(松汇西路—闵塔公路)中修工程竣工

上观新闻
2026-05-06 13:14:05
以新空军司令:准备以全部战机对抗伊朗

以新空军司令:准备以全部战机对抗伊朗

参考消息
2026-05-06 11:14:35
湖人90-108雷霆!里夫斯清楚两事实,老詹把话挑明,两点也成关键

湖人90-108雷霆!里夫斯清楚两事实,老詹把话挑明,两点也成关键

鱼崖大话篮球
2026-05-06 13:27:18
1936年亲手活捉蒋介石的孙铭九:建国后,上级部门破例为他谋工作

1936年亲手活捉蒋介石的孙铭九:建国后,上级部门破例为他谋工作

磊子讲史
2026-01-22 10:13:17
许利民:全队备战都很充分,跟新外援强调要适应广东的身体对抗

许利民:全队备战都很充分,跟新外援强调要适应广东的身体对抗

懂球帝
2026-05-06 13:22:04
你抛美债,我抛中债!外资纷纷减持中国债,大量资金流向美国?

你抛美债,我抛中债!外资纷纷减持中国债,大量资金流向美国?

混沌录
2026-04-22 20:55:37
女演员宣布:已产下一个大胖小子!

女演员宣布:已产下一个大胖小子!

喜欢历史的阿繁
2026-05-05 00:04:32
斯诺克夺冠不到24小时,吴宜泽凭1个举动,实现口碑暴增

斯诺克夺冠不到24小时,吴宜泽凭1个举动,实现口碑暴增

以茶带书
2026-05-05 20:03:59
李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

西楼知趣杂谈
2026-04-26 10:18:11
2026-05-06 14:48:49
硬核玩家2哈
硬核玩家2哈
沉淀中,勿扰
2157文章数 11关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

男子购百万保险被邀免费游老挝 花数十万买"熊胆"心虚

头条要闻

男子购百万保险被邀免费游老挝 花数十万买"熊胆"心虚

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

人形机器人七小龙:谁真能卖 谁在讲故事?

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

房产
健康
旅游
艺术
本地

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

干细胞治烧烫伤面临这些“瓶颈”

旅游要闻

龙江新观察|“五一”文旅热力十足 特色体验燃动春日消费

艺术要闻

震撼!康斯坦丁摄影作品里的性感曲线让人惊艳!

本地新闻

用青花瓷的方式,打开西溪湿地

无障碍浏览 进入关怀版