网易首页 > 网易号 > 正文 申请入驻

Gemini联手顶尖学者破解理论科学难题:推翻人类学者的假设

0
分享至

此前,业界对AI 能力的评价往往基于“会不会做题”,比如能不能在高考试题上击败人类考生、在奥数竞赛中斩获几块金牌,又或者写出的代码够不够格通过互联网大厂的笔试……

但在这些看似“人类一败涂地,AI大获全胜”的测试背后,科学界一直存在一种冷静甚至审慎的看法:AI 确实很会“做题”,但它能解决那些人类尚未解决的“真问题”吗?毕竟,背诵教科书是一回事,拓展人类知识的边界则是完全不同的另一回事。

许多科学家曾认为,目前的 AI 或许只能做简单的模仿者,无法进行深度的逻辑推理和创新。然而,Google Research 最新发布的一项重磅研究打破了这种质疑,并向我们展示:AI 不仅是只会做选择题的学生,还可以成为人类顶尖学者的“左膀右臂”,共同攻克多个困扰学界已久的难题。


(来源:arXiv)

2 月 3 日,Google Research 联合卡内基梅隆大学、哈佛大学、麻省理工学院等多所顶尖高校研究人员共同在预印本平台 arXiv 提交了一篇论文:《利用 Gemini 加速科学研究:案例研究与通用技术》(Accelerating Scientific Research with Gemini: Case Studies and Common Techniques),详细记录了前沿大语言模型,特别是具备增强推理能力的 Gemini Deep Think 及其变体,如何从传统的辅助工具转变为理论科学研究中的实质性合作者。

研究团队通过展示 Gemini 系列大型语言模型在理论计算机科学、物理学、经济学等多个领域的实际应用,证实了 Gemini 在解决开放性数学问题、反驳长期存在的猜想以及生成复杂新证明方面具备卓越性能,还总结出了一套行之有效的人机协作方法论。

为了让 Gemini 真正参与专家级的科研工作,研究人员首先构建了几项关键的协作规则。首先是“迭代提示与改进”,即模型很少能一次性解决深奥问题,需要通过多轮对话,由人类研究员将大问题分解为可验证的子任务,并提供高层级的证明框架(即“脚手架”),引导模型逐步填补技术细节。

其次是“思想的异花授粉”(Cross-Pollination of Ideas),团队利用模型摄取了跨学科海量文献的优势,借助其识别出不同数学领域之间,可能被人类专家忽视的隐秘联系。

此外还有“神经符号循环”(Neuro-Symbolic Loops)技术,即将模型嵌入自动化的编程环境中,让模型生成数学公式,同时编写代码对假设进行数值验证,根据执行错误(如 Python 回溯信息)自主修正推导路径,从而在没有人类干预的情况下修剪无效的推理分支,形成一个自我修正的闭环。


(来源:Google Research)

这些框架搭建完成后,Gemini 随即在分属多个领域的科学研究中展现出巨大的应用潜力。首先,在密码学领域,Gemini 指出了一种前沿协议的致命漏洞。这一名为“简洁非交互式论证”(SNARGs)的协议,旨在保护区块链和隐私计算,如果这个错误未被发现,未来的数字安全可能面临巨大风险。

具体来看,针对一篇声称基于容错学习(LWE)假设实现简洁非交互式论证(SNARGs)的预印本论文,研究人员设计了一种“对抗性自我纠正”的提示策略,要求模型严格批判自己的发现。结果,Gemini 敏锐地指出,论文中“完美一致性”定义与实际构造仅能实现“统计一致性”之间存在严重的逻辑缺陷,这一发现随后得到了密码学专家和论文原作者的确认。

“在线次模福利最大化”(online submodular welfare maximization)是一个经典的经济学与算法问题,研究如何在需求未知且逐个出现的情况下,例如在实时广告竞价或云计算资源分配中,将资源分给不同的人以最大化整体满意度。这里的“次模”指的是边际效益递减,即拥有的越多,新获得的价值就越低。

此前,谷歌研究科学家尼蒂什·科鲁拉(Nitish Korula)等人提出过一个与之相关的猜想,认为某种贪婪算法的效率界限可以被进一步提升。基于此,Gemini 并未顺着原假设的思路进一步证实,反而自主构建了一个涉及 3 个物品和 2 个代理的具体反例,并通过繁琐的期望计算成功反驳了该猜想。这是 AI 罕见地在研究者没有给出明确答案的情况下,直接利用真实科研语境否定了一位人类学者(还是谷歌自己人)提出的猜想。


(来源:Recherche-Research-Google)

借助掌握海量跨学科知识的优势,Gemini 在数学领域的难题中另辟蹊径,为算法难题提供颇具创新性的几何解法。最大割(Max-Cut)是一个图论问题,旨在寻找一种分割方式,使被切断的连接线数量最大,这也是网络流和芯片设计中常用的基础算法之一。

为解决其中关于近似算法精度的一个长期开放问题,Gemini 跳出了传统的组合优化思路,将其重构为一个几何泛函分析问题,并创造性地建议应用斯通-魏尔斯特拉斯(Stone-Weierstrass)定理(一项关于函数逼近的数学定理)来建立必要的方差界限。


(来源:Google Research)

在计算几何领域中,针对斯坦纳树问题(如何以最短路径连接多个点),存在一个关于“单纯形是最佳图嵌入结构”的猜想。Gemini 发现,解决问题的关键实际在于希尔伯特空间映射中的基尔斯布劳恩(Kirszbraun)扩展定理,这个定理通常用于分析函数的平滑性(Lipschitz 连续性),人类研究者此前往往认为它过于深奥而不予考虑。但 Gemini 正是借助这一晦涩的数学工具,成功完成了从任意图嵌入到星形图嵌入的形式化映射证明。


(来源:Google Research)

类似地,正则二分图常用于通信网络建模,为改进其完美匹配数量下界,Gemini 综合运用了统计物理中的贝特(Bethe)近似、数论中的互质整数分析以及谱图理论中的伊原-巴斯(Ihara-Bass)恒等式,给出了比施赖弗(Schrijver)界限更强的理论结果。

涉及复杂运算和算法优化的学科时,Gemini 展现出惊人的“精算师”与“优化师”能力。在理论天体物理学中,科学家试图通过引力波探测宇宙大爆炸后的遗迹——宇宙弦。然而,预测其引力辐射涉及一个极度振荡且具有严重奇点的球面积分计算,这是该领域的一个长期难题。

为此,研究团队构建了一个神经符号系统,Gemini 在其中推导数学公式,并编写 Python 代码与数值基准进行比对。通过这种反馈循环,AI 自主发现了六种不同的解析路径,最终结合盖根鲍尔(Gegenbauer)多项式展开,为这一难题推导出一个精确的闭式解。

在大数据处理中,如何在有限的内存中从海量数据流里筛选出最有价值的信息(次模函数最大化)是一个核心问题,Gemini 敏锐地发现,现有分析中存在一个潜在自由度:算法中的阈值参数不应是全局固定的,而应根据处理状态动态调整。

通过引入状态依赖阈值,AI 推导并证明出一个优化的递推关系,将算法的近似比从约 0.55 精确提升到了 2-√2。同时,在流算法的香农熵(Shannon Entropy)估计中,AI 观察到,算法其实只需依赖低阶矩,从而避开了高方差区域,这一洞察直接将内部状态变化的复杂度界限从多项式级大幅优化至多对数级别。

此外,论文还证实,Gemini 已经有能力重塑论文写作的全流程,甚至出现了“代码化”论文写作的趋势。例如,在理论计算机科学领域,著名的复杂性理论专家、Computational Complexity 博客博主兰斯·福特诺(Lance Fortnow)尝试使用集成了 AI 的 IDE 开发环境,通过高层级的提示进行“氛围编程”(Vibe-coding)。

当对复杂性类 SP2(涉及博弈论与计算复杂性)进行研究时,Gemini 不仅可在几乎没有人工干预的情况下,自主生成关于搜索问题与决策问题等价性的主要证明,被指出推论中的假设错误后,还迅速将证明策略修正为归约法,几乎独立完成了一篇高质量理论论文的初稿。

论文还在更多学科中考验了 Gemini 解决实际难题的能力。如在机制设计领域,AI 帮助将原论文中基于有理数报价的结论推广到了实数域,利用拓扑学和序理论替代了原有的计数性论证。

在信息论领域,AI 通过分析优化图景和利用超压缩性不等式(Hypercontractivity),对著名的库尔塔德-库马尔(Courtade-Kumar)猜想做出了实质性贡献,包括将其推广到非平衡函数以及改进了高噪声区间的界限。

这一系列成果表明,前沿 AI 模型已经具备了在理论科学中进行实质性贡献的能力,而非简单的辅助工具。它不仅能优化算法、推导公式,还能跨越学科壁垒,甚至从人类专家的盲点区域找到新的可能性。

然而,论文也强调,目前的这种成功仍高度依赖于人类专家的“脚手架”支持和严格验证,类似于目前已广为人知的“Vibe-coding”,这种人机协作模式被形象地称为“Vibe-proving”——即利用 AI 的直觉生成证明草稿,再由人类进行严格审查。

为了彻底解决模型可能产生的幻觉问题,未来的研究方向将是用利用 Lean 或 Coq 等交互式定理证明器,将 AI 生成的非形式化数学推导转化为绝对严谨的形式化证明,从而在根本上保证科学发现的正确性,甚至有望得到同行评审的信任。

参考资料:

https://arxiv.org/pdf/2602.03837

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
警方通报:小区内发生一起致3死1伤刑事案件,嫌犯畏罪自杀身亡

警方通报:小区内发生一起致3死1伤刑事案件,嫌犯畏罪自杀身亡

澎湃新闻
2026-02-07 02:00:06
色情低俗屡禁不止?快手又接1.191亿元罚单

色情低俗屡禁不止?快手又接1.191亿元罚单

大望财讯
2026-02-07 16:00:41
乒乓球男单大爆冷!头号种子1:3被淘汰,无缘8强,奥运亚军出局

乒乓球男单大爆冷!头号种子1:3被淘汰,无缘8强,奥运亚军出局

国乒二三事
2026-02-07 07:08:49
米兰冬奥会开幕式争议:乌克兰获热烈欢呼!以色列亮相遭巨大嘘声

米兰冬奥会开幕式争议:乌克兰获热烈欢呼!以色列亮相遭巨大嘘声

念洲
2026-02-07 07:46:06
万万没想到!原以为马杜罗会在美国的监狱里把牢底坐穿,剧情突变

万万没想到!原以为马杜罗会在美国的监狱里把牢底坐穿,剧情突变

我心纵横天地间
2026-02-06 20:05:36
特朗普:预计到我本届任期结束时 道指将站上10万点

特朗普:预计到我本届任期结束时 道指将站上10万点

财联社
2026-02-07 13:40:26
50岁和尚想不开跳河轻生:寺庙回应他违反了戒律,被驱逐出寺院

50岁和尚想不开跳河轻生:寺庙回应他违反了戒律,被驱逐出寺院

汉史趣闻
2026-02-07 17:03:56
怀胎7月孕妇与婆婆惨遭杀害,只因一条评论!行凶者:感觉受侮辱……多方发声

怀胎7月孕妇与婆婆惨遭杀害,只因一条评论!行凶者:感觉受侮辱……多方发声

上观新闻
2026-02-07 20:10:08
广东一小伙年会上抽中价值9988元手机,拿回家打开后发现里面装的是糖和瓷砖,当事人回应:手机可以不要,但是策划人必须向自己道歉

广东一小伙年会上抽中价值9988元手机,拿回家打开后发现里面装的是糖和瓷砖,当事人回应:手机可以不要,但是策划人必须向自己道歉

扬子晚报
2026-02-06 23:10:58
博主外网造谣“中国每年50万人冻死”,内地特供视频换说法,一条视频两套词

博主外网造谣“中国每年50万人冻死”,内地特供视频换说法,一条视频两套词

可达鸭面面观
2026-02-07 22:55:27
美国前总统克林顿呼吁全面公开爱泼斯坦文件,要求川普政府举行公开听证会

美国前总统克林顿呼吁全面公开爱泼斯坦文件,要求川普政府举行公开听证会

爆角追踪
2026-02-07 16:00:48
亚洲杯男单4强出炉!林诗栋被爆大冷止步8强 王楚钦距卫冕还差2胜

亚洲杯男单4强出炉!林诗栋被爆大冷止步8强 王楚钦距卫冕还差2胜

颜小白的篮球梦
2026-02-07 22:16:10
触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

老特有话说
2026-02-04 23:42:16
诺奖无用论广为流行,我们正在进入晚清时代2.0?

诺奖无用论广为流行,我们正在进入晚清时代2.0?

枫冷慕诗
2026-02-07 09:15:10
3-4!徐彬留洋首秀踢满全场 随队连丢3球遭逆转 拼抢造首球+染黄

3-4!徐彬留洋首秀踢满全场 随队连丢3球遭逆转 拼抢造首球+染黄

我爱英超
2026-02-07 22:42:05
地球上原本并没有人,那么第一个男人和女人是怎么来的?

地球上原本并没有人,那么第一个男人和女人是怎么来的?

宇宙时空
2026-02-06 19:15:08
因与人产生矛盾,持双管猎枪射击致对方1死1伤,山东菏泽69岁“黑老大”段效灵被执行死刑,其组织和领导黑社会性质多次故意杀人,犯罪69次

因与人产生矛盾,持双管猎枪射击致对方1死1伤,山东菏泽69岁“黑老大”段效灵被执行死刑,其组织和领导黑社会性质多次故意杀人,犯罪69次

大风新闻
2026-02-07 18:17:28
京东001号快递员退休生活公开:有车有房,存款一百多万,退休金每月4000多元;曾打算辞职,被刘强东亲自劝下

京东001号快递员退休生活公开:有车有房,存款一百多万,退休金每月4000多元;曾打算辞职,被刘强东亲自劝下

每日经济新闻
2026-02-07 00:24:19
陈幸同1-4不敌张本美和,无缘亚洲杯女单四强

陈幸同1-4不敌张本美和,无缘亚洲杯女单四强

懂球帝
2026-02-07 20:56:32
金晨处罚结果曝光!肇事逃逸被罚款,属违法艺人,待播作品受影响

金晨处罚结果曝光!肇事逃逸被罚款,属违法艺人,待播作品受影响

萌神木木
2026-02-07 17:09:06
2026-02-07 23:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16235文章数 514593关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

半年巨亏超1500亿元 全球第四大汽车巨头突然爆雷

头条要闻

半年巨亏超1500亿元 全球第四大汽车巨头突然爆雷

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

教育
家居
亲子
手机
艺术

教育要闻

奇葩生活费发放方式引争议,大学生成长空间遭挤压

家居要闻

现代轻奢 温馨治愈系

亲子要闻

怀孕的女人闹情绪有多离谱?网友:觉得洗衣机太累了,让我给它道歉

手机要闻

华为苹果领衔 TOP5厂商入场,阔折叠方向对了吗?

艺术要闻

门窗全装却空无一人!惠州小岛的别墅群为何烂尾十几年?

无障碍浏览 进入关怀版