网易首页 > 网易号 > 正文 申请入驻

AI如何改变数学研究的本质

0
分享至


现代AI编码工具已经彻底改变了软件工程,开发者现在使用AI助手编写大部分代码,涉及各种应用领域。作为研究机器学习理论的科学家,我们已经看到基础科学方法论发生了类似的转变,特别是在数学性质的研究中。

更准确地说,AI工具现在能够仅从提供高层证明草图的提示中开发和编写严格的数学证明。这些证明用详述数学论证的长期存在的"语言"编写,就像代码用Python等正式编程语言编写一样。AI似乎已经熟练掌握了这两种语言及其底层逻辑。

去年夏天,我们在三周内使用智能体AI工具撰写了一篇数学论文,这通常需要几个月时间。这篇50页的论文描述并解决了一个基于图论和机器学习概念的优化问题。我们给AI的典型提示是:"想象一个由线性最小二乘学习智能体组成的有向无环网络,每个智能体共享一个通用数据集,但每个智能体只能看到特征的不同子集。"

定理陈述和证明的典型提示是:"我们相信,如果网络包含一个足够长的智能体链,其特征覆盖整个数据集,链中的某个智能体应该快速收敛到全局最优线性模型。证明应该利用错误在链中单调递减这一事实,这迫使长序列智能体在彼此特征方面具有多重准确性。"虽然这些表述对普通读者来说可能很晦涩,但它们都有精确的标准数学解释,AI通过训练知道这些,并将非正式直觉转化为精确定义和陈述。这种转化并不完美,但产生了一个很好的初稿,然后可以进行修正和完善。

需要明确的是,对于这篇特定论文,我们已经知道心中证明的大致轮廓。AI所做的是自动化并大大加速填写缺失细节并以正式精确性编写它们的过程。但最近,我们撰写的论文在没有AI帮助的情况下会有本质不同,质量更好——AI贡献了对最终结果至关重要的关键想法。

重要的是要注意AI工具发展很快,这使得未来难以预测。虽然它们的使用显示出产生更快更好研究的潜力,但也为那些关心科学未来及其与更广阔世界关系的人产生了严重问题。AI正在改变研究规范和工作流程,这引发了如何培训未来几代科学家的担忧。

具体来说,当AI自动化许多历史上用于培训年轻研究人员的步骤时,如何培养科学研究中的直觉和"良好品味"?同行评议是另一个挑战:AI生成的研究论文大规模快速产出,突显了同行评议和现代出版结构的局限性,也加剧了科学成功激励机制已经出现的挑战。虽然我们不声称对这些担忧有答案或解决方案,但我们正在亲身经历它们,并将逐一讨论。

与AI协作的新范式

从我们夏季研究项目中得出的主要结论之一是,与基于证明的AI工具合作类似于与一个聪明、受过广泛教育但偶尔出错的同事合作。人们可以像对人类合作者一样向AI智能体口头描述数学论证,智能体可以将该草图转化为正式书面的引理或定理及其证明。

越来越多的AI智能体可以在没有草图的情况下自己找到证明,特别是当这些证明在某些数学领域是"标准"的时候。这比听起来更有用:许多类型的论证在某个领域是"标准"的,但通常是人类作者不是专家的领域。AI工具的一个优势是它们精通数学和其他科学学科的大量领域。

例如,在我们的案例中,在逐步证明我们提供草图的主要结果过程中,AI自发地证明了一个我们不知道的简单但有用的引理,这有意义地简化了我们心中的论证。这种创造力的含义令人兴奋,特别是在降低发现门槛方面:没有多样化合作者社区的科学家也可以以之前不可能的方式参与前沿研究。

然而,使用这些工具仍需要谨慎和专业知识。它们生成的证明大约只有四分之三的时间是正确的。但当它们错误时,如果你能识别错误,通常可以迭代到正确性,然后沿着有希望的路径继续。

如果错误仍未纠正,试图继续往往会走入死胡同。25%的错误率足够低,使工具对专家极其有用,但也足够高,在不小心或不加区分使用时,有时会退化为"AI研究垃圾"——看起来精美但最终有缺陷或无趣的工作。毕竟,模型仍然不知道什么是"有趣"或"有用"的。

我们还注意到使用AI工具产生的一些反复出现的失败模式或"兔子洞"。在撰写论文时,我们要求AI生成一个小的、自包含的结果,它在几分钟内完美完成,此时我们告诉它这个子项目已完成。然而,在接下来的几天里,AI会自发主动建议回到这个话题,尽管被反复告知除非被要求否则不要这样做。这令人恼火地提醒我们生成式AI没有完美的回忆,只有上下文的不完整摘要或嵌入。在为实验编写代码以说明我们的理论发现时,我们发现AI可以在快速编写大量相当复杂的工作代码和在琐事上迷失几个小时之间交替,比如简单地打印出正在执行循环的哪次迭代。

培养下一代研究人员

历史上,人们通过作为初级研究人员的艰难过程在数学科学中获得专业知识。博士生花费数年时间研究技术论证的细节,以获得关于证明方法何时有前景、何时被问题误导或什么构成新颖有趣研究方向的来之不易的直觉。

但研究人员的这些方面正是AI工具正在"赠送"的。如果博士生可以简单地向AI索要证明——这极其诱人,特别是当它有助于推进研究时——他们如何发展目前至少需要的经验和技能,以便首先高效地使用AI工具?

我们可能需要更有意识地向年轻研究人员传授这些基础技能,也许采用在小学不使用计算器教算术的高级版本。直接建议是要求初级研究人员"老式地"撰写论文,即使他们的工作可以通过AI加速。

也许在单独的轨道上,学生将接受理解和使用新兴AI工具的训练。这是一个日益重要的领域,可能需要创造性的解决方案。虽然我们坚信AI工具将为科学做出惊人的事情,但重要的是要有意调节它们的使用,以便将研究人员培养到能够明智和有品味地使用它们的程度,而不是简单地作为二流研究的捷径。

这些下一代培训挑战对使用AI的科学家来说并不独特。我们在无数领域看到它们,包括工程、客户服务、法律、写作和设计——实际上,任何入门级任务(以前用于向年轻工作者介绍某个领域)现在使用AI完成的行业。为了找到这种技能培训挑战的创造性解决方案,或者更好地预测即将发生的变化,跨领域或时间类比可能会有所帮助。

在高级编程语言和编译器在20世纪60年代早期广泛引入后,大多数软件工程师不再编写机器代码或汇编语言,这些直接向底层硬件提供指令但编程繁琐。但最好的程序员仍然对编译器如何将高级语言转化为机器代码有足够的了解,以便对正确性和性能进行推理。我们希望使构造和检查技术论证变得更容易,让所有研究人员在更高的抽象级别操作并"思考更大的想法"。我们设想的文化将强调品味、问题选择和建模技能,并贬低技术魔法本身的价值。

同行评议面临的挑战

从我们的角度来看,同行评议不仅仅是,甚至主要不是验证研究正确性和质量的过程。相反,它的目的是将稀缺资源——研究社区的注意力——集中在正确的地方。科学随着研究人员相互建立在彼此工作基础上而进步,但已经有太多工作让任何人都无法跟上。出版过程应该帮助识别最有趣和最有前景的方向,以便它们能够更有效和彻底地发展。

AI如何影响这种社区注意力的集中?AI工具使产生看起来精美和正确的工作变得更容易,大大降低了生成可以提交给期刊和会议的"论文"的门槛。许多这些论文既不有趣也不真正正确——但发现这一点需要审稿人付出巨大努力。

这正在给已经不堪重负的机器学习出版生态系统带来压力,该系统正在努力应对每个会议数万份投稿。我们看到减少产生"一篇论文"——不一定是好论文——所需的时间和努力正在开始破坏我们现有的同行评议机构。AI和机器学习会议的最新迭代看到投稿数量大幅增长,其中很大一部分论文由AI润色,但最终质量很低,在被注意和揭发之前令人惊讶地通过了大部分评审过程。

这是各个研究领域的问题,部分因为它正在为AI生成的论文创造一个市场。这反过来产生了AI辅助检测AI生成论文的反市场——很像围绕垃圾邮件及其检测等事物的熟悉技术军备竞赛,但科学出版的完整性受到威胁,而不仅仅是过滤烦人或欺诈性电子邮件。

作为短期修复,AI驱动的自动正确性检查(例如,数学证明的正式验证),这些工具已经在主要会议上部署,可能很有价值。将此视为数学而非代码的单元测试形式。目标是过滤掉有非平凡错误的论文,同时将人类审稿人的工作重点放在他们最适合评估的科学重要部分:确定我们从新结果中学到关于世界的什么,以及它有多有用和有趣,而不是被检查无数论文技术正确性的单调所淹没。

如果没有对同行评议进行认真的、社区范围的重新评估,AI威胁在社区层面阻止科学进步,即使它在个人研究人员层面加速了进步。

拥抱变革,塑造未来

我们认为AI正在为科学研究方法论、培训和同行评议带来翻天覆地的变化;无法隐瞒即将到来的事情。但有机会主动适应并确保AI辅助研究实现其承诺。明年年底研究会是什么样子?后年呢?我们在过去一年中看到的变化比前十年更多,所以我们能够自信预测的只是"不同"。

我们的科学机构——同行评议、出版、研究生教育——经过数十年发展以匹配人类认知和努力的约束。这些约束正在快速变化,我们的机构需要与它们一起变化。我们的目标应该是引导走向一个世界,在这个世界中AI放大人类创造力和洞察力,加速发现,扩大谁可以参与研究事业——同时保持使科学有价值的快乐和严谨。

Q&A

Q1:AI如何帮助数学家进行证明?

A:AI工具能够仅从高层证明草图的提示中开发和编写严格的数学证明。研究人员可以向AI智能体口头描述数学论证,就像对人类合作者一样,智能体可以将该草图转化为正式书面的引理或定理及其证明,大大加速了研究过程。

Q2:AI生成的数学证明准确率如何?

A:AI生成的证明大约只有四分之三的时间是正确的,存在25%的错误率。当证明错误时,如果能识别错误,通常可以迭代到正确性。这个错误率足够低使工具对专家极其有用,但也足够高,需要谨慎使用以避免产生有缺陷的研究。

Q3:AI对科学出版和同行评议有什么影响?

A:AI工具大大降低了生成看似精美论文的门槛,导致投稿数量大幅增长,但其中许多质量很低。这给同行评议系统带来巨大压力,威胁科学出版的完整性。需要引入AI驱动的自动正确性检查等新机制来应对这一挑战。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗德黑兰突降“黑雨”!有民众呼吸困难 喉咙刺痛

伊朗德黑兰突降“黑雨”!有民众呼吸困难 喉咙刺痛

闪电新闻
2026-03-10 19:30:10
“活不起了?”男子横幅威胁引发热议,真相令人震惊!

“活不起了?”男子横幅威胁引发热议,真相令人震惊!

一丝不苟的法律人
2026-03-10 12:45:20
记者:澳政府将在机场为伊朗女足全队提供申请庇护的最后机会

记者:澳政府将在机场为伊朗女足全队提供申请庇护的最后机会

懂球帝
2026-03-10 13:06:17
全网震怒!螺蛳粉店一把凳子,竟让女教师彻底社会性死亡

全网震怒!螺蛳粉店一把凳子,竟让女教师彻底社会性死亡

阅微札记
2026-03-10 11:43:45
实锤!伊朗被炸小学废墟中找到导弹残骸,上面印有“美国制造”

实锤!伊朗被炸小学废墟中找到导弹残骸,上面印有“美国制造”

不掉线电波
2026-03-10 16:05:37
3-0脆败!上海豪华阵容现原形,遇强崩盘+教练死磕一套阵容太致命

3-0脆败!上海豪华阵容现原形,遇强崩盘+教练死磕一套阵容太致命

金毛爱女排
2026-03-10 21:13:30
陈皮加它一起煮,倒头就睡还疏肝宁神,我靠这招睡饱觉气色好

陈皮加它一起煮,倒头就睡还疏肝宁神,我靠这招睡饱觉气色好

江江食研社
2026-03-10 14:13:03
2026年医保巨变,挂号少做这一步,每年几千块医保全白交

2026年医保巨变,挂号少做这一步,每年几千块医保全白交

老特有话说
2026-03-10 15:30:08
两会还没结束,央媒对霍启刚称呼变了,四字之差释放两大强烈信号

两会还没结束,央媒对霍启刚称呼变了,四字之差释放两大强烈信号

格斗社
2026-03-10 06:28:25
毫不避讳,
王毅外长正式回应特朗普访华!

毫不避讳, 王毅外长正式回应特朗普访华!

南权先生
2026-03-10 15:26:57
伊朗30吨巨弹轰向以色列空军基地!16马赫速度,以军防御拦不住

伊朗30吨巨弹轰向以色列空军基地!16马赫速度,以军防御拦不住

策略述
2026-03-10 17:22:04
伊朗开启复仇!以色列首都已全面停电,小哈梅内伊比想象中更强硬

伊朗开启复仇!以色列首都已全面停电,小哈梅内伊比想象中更强硬

派大星纪录片
2026-03-10 12:01:56
伊朗女足已乘机回国!登机时拥抱痛哭 至少1人拒离开+2人最终留守

伊朗女足已乘机回国!登机时拥抱痛哭 至少1人拒离开+2人最终留守

我爱英超
2026-03-10 21:10:58
工信部专家: 党政机关、企事业单位和个人用户要审慎使用“龙虾”!国家互联网应急中心提示四大严重安全风险

工信部专家: 党政机关、企事业单位和个人用户要审慎使用“龙虾”!国家互联网应急中心提示四大严重安全风险

每日经济新闻
2026-03-10 22:55:30
中国游客不来了,日本政府大力欢迎印度游客!日本空姐崩溃:他们用完的厕所简直是灾难!

中国游客不来了,日本政府大力欢迎印度游客!日本空姐崩溃:他们用完的厕所简直是灾难!

东京新青年
2026-03-10 18:52:49
杭州已有第一批“养龙虾”的人!有人养了不到10天就离不开了,还对家里堆成山的泡泡玛特定了个目标

杭州已有第一批“养龙虾”的人!有人养了不到10天就离不开了,还对家里堆成山的泡泡玛特定了个目标

都市快报橙柿互动
2026-03-10 11:19:02
中国女足4-0战胜对手,晋级四强

中国女足4-0战胜对手,晋级四强

大嘴说台球
2026-03-10 21:43:09
这菜再贵也要吃,大量上市!通便排毒,杀菌消炎,提高免疫力

这菜再贵也要吃,大量上市!通便排毒,杀菌消炎,提高免疫力

阿龙美食记
2026-03-10 16:31:51
一场足球赛,带来24万亿的性交易额,为何韩国会沦落到这个地步?

一场足球赛,带来24万亿的性交易额,为何韩国会沦落到这个地步?

叹为观止易
2026-03-10 21:16:46
楼市,突然不讲武德了

楼市,突然不讲武德了

地产观点
2026-03-10 18:05:03
2026-03-11 05:07:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16700文章数 49695关注度
往期回顾 全部

科技要闻

全民"养虾"背后:大厂集体下场疯狂卖Token

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

体育要闻

加兰没那么差,但鲈鱼会用吗?

娱乐要闻

《逐玉》注水风波升级!315评论区沦陷

财经要闻

“龙虾补贴”密集出炉 最高1000万!

汽车要闻

MG4有SUV衍生 上汽乘用车多款新车规划曝光

态度原创

教育
房产
时尚
手机
数码

教育要闻

【现货】英语不会?背!主题演讲不会?背!笔试不会?背!!

房产要闻

信号!千亿巨头入局,三亚开启新一轮大征拆!

看来看去这些才是适合普通人的穿搭!不花哨、不繁琐,提气质

手机要闻

M5 Max 版 16 英寸 MacBook Pro 体验:算力巅峰与专业视界

数码要闻

M5 Max 版 16 英寸 MacBook Pro 体验:算力巅峰与专业视界

无障碍浏览 进入关怀版