网易首页 > 网易号 > 正文 申请入驻

陶哲轩使用o3 mini一手测评来了:好坏参半

0
分享至

来源:AI寒武纪

数学大神陶哲轩(Terence Tao)刚发了一篇他使用o 3 mini感受帖子,给大家划个重点

大神也好奇AI搞科研怎么样?

陶哲轩发帖说,最近他在研究图论中的一个“专家级”定理——“三角形移除引理”。这定理有点复杂,咱们普通人听着可能头大。为了搞清楚这个定理的证明,现有三种方法:

  1. 传统手撸:笔和纸,自己硬啃

  2. 传统搜索:用搜索引擎,网上冲浪找答案

  3. AI 助手:直接问大语言模型(LLM)

陶哲轩直接选择了第三种——求助大语言模型,他用的是 o3-mini 模型。结果让他有点惊喜:几秒钟,模型就给出了一个非常靠谱的答案,完美解释了这个定理的推导过程!他还贴出了聊天记录链接,感兴趣的可以直接去看:

https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

大神亲自测试,这波必须点赞!陶哲轩也表示,这次体验让他觉得,对于快速获取专业领域内的标准论证细节,LLM 真是个好帮手。之后自己再去验证一下模型的答案是否正确就行

但是!AI也不是万能的尝

尝到甜头的陶哲轩,又追问了模型另一个“三角形移除引理”的经典推论——鲁萨-塞迈雷迪 (Ruzsa-Szemeredi) (6,3) 定理。这回,模型的表现就没那么完美了

  • 初次尝试:模型给出的策略方向是对的——用超图对图形编码。但是,关键细节完全缺失

  • 深入追问:陶哲轩不断引导,模型依然没能抓住要点,比如如何用 (6,3) 条件来限制编码图中不需要的三角形,以及如何先简化到线性超图这种核心思路。

最后,陶哲轩还是通过传统搜索先找到了答案,然后用非常明确的提示引导模型,才让模型最终勉强给出了一个基本正确的推导证明。大神都得先自己搞懂,才能“教”会AI,这多少有点无奈

陶哲轩的总结和反思

两次测试下来,陶哲轩的感受是:

对于研究级别的数学任务,目前的模型表现波动很大。有时 “在用户给出粗略指导下就能真正有用”, 有时却 “需要用户给出大量详细指导才能发挥作用”。更强大的模型,可能前一种情况会更多一些。

他认为, 对于那些非常标准的问题,比如维基百科或 StackOverflow 上能轻松找到答案的,LLM 表现出色。但问题越偏门、越冷门,模型的成功率就逐渐下降。想要模型给出有用的结果,就需要更多的用户引导,或者更高的算力支持

这是 Terence Tao 的推文全文翻译:

陶哲轩
@tao@mathstodon.xyz
加州大学洛杉矶分校 #数学 教授

今天我尝试重构图论中一个(对专家而言)标准的结果的证明,即鲁兹萨-塞迈雷迪“三角形移除引理”意味着,由 n 个导出匹配组成的 n 个顶点的图只包含 o(n^2) 条边。我当时的主要三个选项是:尝试用笔和纸进行推导;进行传统的网络搜索;或者询问大型语言模型。在这种情况下,我选择了第三个选项(使用 o3-mini),并在几秒钟内收到了一个非常好的答案,正确地解释了这个推论:https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

这满足了我眼前的需求 - 并指出了 LLM 的一个良好用例,即快速提供自己领域内一些标准论证的细节,然后可以验证其正确性 - 但后来我感到好奇,并要求模型也解释三角形移除引理的另一个标准推论,即鲁兹萨-塞迈雷迪关于具有特定禁用配置的 3-均匀超图大小的 (6,3) 定理。在这里,结果明显好坏参半(见上方链接)。最初的答案有正确的总体策略 - 使用超图来编码图 - 但缺乏所有关键细节。当我进一步追问时,它没有提及两个最重要的想法 - 使用 (6,3) 条件来限制编码图中不需要的三角形,或最初简化为线性超图 - 但通过额外的提示,它能够重构这些组成部分,并最终提供了该推导的基本上正确的证明。但我不得不通过相当明确的提示来引导它,我只能这样做,因为我事先通过传统的网络搜索查找了证明。(1/2)

我的总体感觉是,至少对于研究级别的数学任务而言,目前的模型在“仅需用户提供广泛指导就真正有用”和“在用户提供大量详细指导后才有用”之间波动,其中,最强大的模型在前者类别中拥有更高比例的答案。对于那些非常标准的问题,它们似乎特别有效,以至于它们的答案基本上可以在诸如维基百科或 StackOverflow 等现有资源中找到;但是,随着人们转向越来越晦涩的问题类型,成功率会逐渐降低(尽管是以较为渐进的方式),并且需要更多的用户指导(或更高的计算资源)才能使 LLM 的输出达到可用的形式。(2/2)

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
香格里拉对话会上,爆发激烈交锋,当着40多国的面,中方剑指日菲

香格里拉对话会上,爆发激烈交锋,当着40多国的面,中方剑指日菲

共工之锚
2026-06-01 00:34:29
这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

阿凫爱吐槽
2025-12-17 17:24:39
宁德时代:巧克力换电累计落站1650座 2026年预计超3000座

宁德时代:巧克力换电累计落站1650座 2026年预计超3000座

财联社
2026-05-30 15:44:10
广厦不敌上海不可怕,可怕的是赛后三大坏消息,攻防体系全面失准

广厦不敌上海不可怕,可怕的是赛后三大坏消息,攻防体系全面失准

烟浔渺渺
2026-06-01 03:23:39
云南会泽发生私挖盗采矿产资源垮塌事故致5人死亡

云南会泽发生私挖盗采矿产资源垮塌事故致5人死亡

界面新闻
2026-05-31 14:54:39
凯尔特人留住布朗不换字母哥?队记爆料内情

凯尔特人留住布朗不换字母哥?队记爆料内情

星河漫山野
2026-05-31 01:46:08
教你一个玄学法则:当你的孩子主动给你买衣服、买吃的,或者主动给你发红包,不管你缺不缺钱,有多心疼孩子赚钱辛苦,你都要欣然的收下

教你一个玄学法则:当你的孩子主动给你买衣服、买吃的,或者主动给你发红包,不管你缺不缺钱,有多心疼孩子赚钱辛苦,你都要欣然的收下

心理观察局
2026-05-13 09:18:07
切特谈被马刺队文班亚马羞辱:雷霆队的目标是赢球,永远都是这样

切特谈被马刺队文班亚马羞辱:雷霆队的目标是赢球,永远都是这样

好火子
2026-05-31 23:46:13
7000户业主强烈要求取缔:广州黄埔知识城污染、民乱星夜集市

7000户业主强烈要求取缔:广州黄埔知识城污染、民乱星夜集市

魅力太行融文
2026-05-31 14:28:05
华为“韬定律”炸场:黄仁勋笑称“台积电早搞了”,怎么解?

华为“韬定律”炸场:黄仁勋笑称“台积电早搞了”,怎么解?

海右那人
2026-05-31 23:15:44
俄罗斯做出巨大让步!中国30年心结了结!美媒:欧盟帮了中国大忙

俄罗斯做出巨大让步!中国30年心结了结!美媒:欧盟帮了中国大忙

老范谈史
2026-04-26 18:10:17
定了!欧足联选择阿里巴巴

定了!欧足联选择阿里巴巴

中国经营报
2026-05-31 11:09:41
日媒:小泉当众批评中方“荒谬”,认为中方没资格指责日本

日媒:小泉当众批评中方“荒谬”,认为中方没资格指责日本

赵或是个热血青年
2026-05-31 14:01:12
“余生好好走”,知名央视主持人王小丫,病床上的留言惹人泪目

“余生好好走”,知名央视主持人王小丫,病床上的留言惹人泪目

汪镛的创业之路
2026-05-31 18:17:27
最高8.8分!这三部新播韩剧,值得一看

最高8.8分!这三部新播韩剧,值得一看

来看美剧
2026-05-31 19:04:03
约会时女人说去厕所,其实是在给你两个暗示,听懂的都不是凡人

约会时女人说去厕所,其实是在给你两个暗示,听懂的都不是凡人

心理观察局
2026-05-18 09:11:14
贝克汉姆14岁哈珀笑容灵动,拎两只11万香奈儿,性感成熟引争议

贝克汉姆14岁哈珀笑容灵动,拎两只11万香奈儿,性感成熟引争议

译言
2026-05-31 06:03:51
央视突然曝光“空天母舰”!外媒彻底懵了:到底是科幻还是现实?

央视突然曝光“空天母舰”!外媒彻底懵了:到底是科幻还是现实?

科技处长
2026-05-31 16:53:35
亨利·卡维尔二战猛片票房惨败后,流媒体逆袭登顶

亨利·卡维尔二战猛片票房惨败后,流媒体逆袭登顶

影视情报室
2026-06-01 01:39:00
从弃将到近亿元先生!阿根廷天才2年身价暴涨13倍 皇马回购赚翻了

从弃将到近亿元先生!阿根廷天才2年身价暴涨13倍 皇马回购赚翻了

万花筒体育球球
2026-05-31 17:03:36
2026-06-01 04:40:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4782文章数 37472关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

特朗普生日白宫办格斗赛 近距离观赛花超100万美元

头条要闻

特朗普生日白宫办格斗赛 近距离观赛花超100万美元

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

本地
房产
手机
家居
公开课

本地新闻

用剪纸的方式,打开江苏扬州

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

手机要闻

荣耀7英寸大屏手机曝光,电池继续升级

家居要闻

云栖 舒展如流云

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版