网易首页 > 网易号 > 正文 申请入驻

万条推文“怒轰”、估值下跌, OpenAI被误导性“突破”反噬!陶哲轩:有实力,但方向错了?

0
分享至


整理 | 华卫

“搬起自己的 GPT 石头砸了自己的脚。”这是 Meta 首席 AI 科学家 Yann LeCun 对 OpenAI 研究员们的最新评价。


事件起因是,此前这些研究员因 GPT-5 的一项新数学“突破”而高调庆祝,但在受到整个 AI 社区质疑后又迅速撤回了该说法。连谷歌 DeepMind 首席执行官 Demis Hassabis 也对此提出批评,称其沟通存在疏漏。

GPT-5“突破”

被证明是一个错误

取得“突破”的消息,最早是由前微软副总裁、现 OpenAI 研究科学家 Sebastien Bubeck 放出。他在 X 上称,两位研究人员在周末借助 GPT-5 找到了 10 个埃尔德什问题(Erdős problems)的答案。埃尔德什问题是匈牙利数学家 Paul Erdős 提出的一系列数学问题的统称,其中既包含未解决的难题,也有已解决的问题,著名案例包括 “不同距离问题”(Distinct Distances Problem)与 “偏差问题”(Discrepancy Problem)。这类问题以难度高著称,常成为学界深入研究的对象,部分问题甚至设有现金奖励,鼓励研究者攻克。

10 月 18 日,OpenAI 研究员 Mark Sellke 正式宣布,经过数千次 GPT-5 的查询,其发现了 10 个原本还处于“未解状态”的埃尔德什问题的答案。此外,还有 11 个难题取得了重要的部分进展,并更新到了官网上。甚至在一道题上,他们还发现 Erdős 本人的原始论文里存在错误,这个错误由 Martínez 和 Roldán-Pensado 两位学者后来进行了修正。

随即,OpenAI 的其他研究员也纷纷宣传起这一消息。OpenAI 副总裁 Kevin Weil 转发了 Sellke 的帖子并确认了情况,“GPT-5 解决了 10 个(!)此前未解决的埃尔德什问题(Erdős problems),并在另外 11 个问题上取得了进展。”


然而目前,这几位 OpenAI 研究员都已删除了以上帖子。

他们的表述听起来像是,GPT-5 独立地为复杂的数论问题生成了数学证明,这不仅可能是一项重大科学突破,还意味着生成式 AI 有望发现未知解决方案,展现出推动创新性研究、为重大进展铺路的能力。但事情却并非如此,说法很快就被推翻了。

负责维护埃尔德什问题网站的数学家 Thomas Bloom 出来发声,称以上帖子 “存在严重失实”。他表示,“GPT-5 只是找到了一些能解决这些问题的参考文献,而这些文献是我个人之前未曾知晓的。网站上标注的 ‘未解决’(open)状态,仅代表我个人尚未了解有能解决该问题的论文。”


即便在 OpenAI 内部,说法也发生了转变。先前高调宣传 GPT-5 成就的 Bubeck 承认,“(GPT-5)只找到了文献中已有的解决方案”。但他认为,这仍算一项切实的成就,“我清楚检索文献的难度有多大。”Hassabis 对此评价道,“这太尴尬了。”

误导性声明带来“反噬 ”

最初的相关推文已基本删除,涉事研究员也承认了错误。

尽管如此,这起事件仍让外界进一步认为,OpenAI 是一家承受着巨大压力、且行事风格较轻率的机构。人们不禁质疑:为何顶尖 AI 研究员会在未核实事实的情况下,就发布如此耸动的言论?尤其是在这个本就充斥着炒作、且涉及数十亿美元利益的领域。

据外媒报道,在社交平台上,“OpenAIFail”等话题标签热度攀升,短短几天内就有超过 1 万条推文表达了对 OpenAI 数学领域所谓 “成就” 的失望与质疑。并且,此事一出,OpenAI 与股票挂钩的估值指标在盘前交易中大幅下跌。

监管机构也正在加强审查。据外媒报道,美国联邦贸易委员会(FTC)已开始调查 OpenAI 的行为是否构成虚假广告行为,可能面临罚款或其他处罚。与此同时,立法者呼吁在人工智能研究中提高透明度,参议员 Maria Cantwell 表示,“我们需要确保人工智能的进步不会被夸大给公众,因为这会削弱公众对这项技术和其应用的信任。”

另外,美国监管机构在发现 OpenAI 通过未公开的与 Epoch AI 的资金关系获得了对 FrontierMath 基准测试的内部优先访问权后,正加强对 OpenAI 的审查,引发了关于公平竞争和基准测试透明度的担忧。Epoch AI 的一位助理总监确认 OpenAI 可以访问大部分基准测试数据,但除了一个“保留”数据集外,并强调只有“口头协议”阻止了其用于训练,这为潜在的操纵留下了可能。此前,在达沃斯论坛上,著名的通用人工智能(AGI)怀疑论者 Gary Marcus 称 OpenAI 的公开演示“具有操纵性”。

AI 推动数学领域的

“实力”,陶哲轩在认可

由于误导性的宣传,此事背后真正有价值的信息似乎被掩盖了:事实上,GPT-5 在追踪相关学术论文的研究工具层面,展现出了实用价值。对于那些文献分布零散、或术语表述不统一的研究问题而言,这种能力尤为重要。

著名数学家、加州大学洛杉矶分校数学教授陶哲轩(Terence Tao)多次在公开场合表示,AI 助手可以改变数学研究。

10 月 17 日,他在一条帖子中强调,AI 在数学领域最富有成效的应用,并非是将最强大的模型用于攻克最具挑战性的难题,而是借助中等算力的工具,去加速和规模化处理那些更普通、更耗时却依然关键的研究任务。这一过程中,需依托人类在这类任务上积累的经验与理解,来指导、验证人工智能的输出,并将其安全整合到研究流程中。陶哲轩表示,尽管 AI 在解决棘手问题方面有过一些 “零散的进展案例”,但是在投入大量计算资源和专家精力的情况下。

而这类常规任务的一个典型例子就是文献综述:为特定问题查找相关的既往文献。若某个问题已有公认的名称,且存在成熟的研究社群专门致力于该问题,那么现有的网络搜索和文献检索工具已足以找到该问题的过往及最新文献。具体而言,这些文献之间的引文网络密度较高,研究者只需从该领域的一篇核心论文入手,通过正向和反向引文检索,就能对该问题的当前研究现状形成相对完整的认知。

并且,陶哲轩也在帖子中提及了用 AI 找出解决埃尔德什问题的相关文献的例子。此外,他还进一步指出了应用 AI 来做文献综述的多方面好处:

文献检索工具的输出结果可由人类独立验证,这一特性使其成为 AI 的合适应用场景(前提是使用者具备足够专业能力来完成验证)。尤其是在需要依次检索多个问题、而非仅聚焦单个问题时,这一优势更为明显。在这类场景中,人工智能输出结果的成功率无需达到 100%;只需满足:在投入同等时间和精力的前提下,相比传统非 AI 驱动的检索方式,它能带来更多有用结果(同时减少无用结果)即可。此外,学习如何正确使用 AI 工具的初始时间投入,可通过多次使用分摊成本。因此,当需要规模化应用检索功能时,这种 AI 工具的使用方式会格外具有吸引力。

若由人类进行文献综述,最终未找到相关文献时,这类结果往往不会被明确记录(尽管文献中有时会出现 “据我们所知,这是该问题的首个已知研究进展” 这类表述)。这背后或许存在一种顾虑:若后续有人发现了一篇此前综述中被遗漏的相关论文,参与综述的研究者可能会因此感到尴尬。这种情况可能引发两种问题:一方面,若多次检索同一问题却未发现相关文献的失败结果从未被报告,多位研究者可能会重复投入精力,徒劳地搜索不存在的文献;另一方面,人们可能会错误地认为某个问题仍未解决,但实际上此前从未有人开展过严谨的文献综述,而该问题的解决方案早已存在于现有文献中。

但当我们利用 AI 驱动的文献综述工具,对大量问题系统性地开展检索时,同时报告 “阳性结果”(找到相关文献)和 “阴性结果” 会变得更加自然。例如可以这样表述:“在该工具检索的 36 个问题中,24 个(占比 66%)返回了经我们判定为相关的新增结果,12 个(占比 33%)仅返回了我们已掌握的文献或无关文献。” 这种做法有助于更准确地呈现某一问题的现有文献实际情况。

此前,他还曾提到,生成式 AI 有望推动数学研究 “工业化”,加速该领域的发展进程。不过他也强调,在审查、分类 AI 生成的结果,并将其安全整合到实际研究中时,人类的专业判断仍是关键。

https://the-decoder.com/leading-openai-researcher-announced-a-gpt-5-math-breakthrough-that-never-happened/

https://mathstodon.xyz/@tao/115385022005130505

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

活动预告

今年的必冲赛事来了!

【2025 深圳国际金融科技大赛】正式启动!

海内外高校学生均可参赛!划重点:

✅ 总额 50 万奖金 + 实体证书奖杯

✅ 院士、长江学者等豪华顾问团

✅ 国内外在读本硕博均可报名,AI、金融、计算机、数学等专业超适配

⏰ 报名时间:即日起 - 11 月 16 日

会议推荐

10 月 23-25 日 QCon 上海站开幕倒计时 3 天,3 天沉浸式学习,100+ 工程实战案例,直面一线的挑战与解法。大会将聚焦 AgenticAI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践。一票难求,立即扫码预占席位!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
36岁副镇长开会时脑出血晕倒,除夕当天不幸离世:上任仅10余天,最后一条动态为督促社火排练,留下3个孩子

36岁副镇长开会时脑出血晕倒,除夕当天不幸离世:上任仅10余天,最后一条动态为督促社火排练,留下3个孩子

极目新闻
2026-03-02 15:45:15
新春“开门红”,新和成喜获多项殊荣

新春“开门红”,新和成喜获多项殊荣

新和成
2026-03-02 10:48:21
“斩首”行动细节揭秘:美以战机同地起飞,直扑哈梅内伊

“斩首”行动细节揭秘:美以战机同地起飞,直扑哈梅内伊

中国新闻周刊
2026-03-02 10:32:04
28场造20球!韦世豪疑不满无缘金球奖:发笑哭表情 配乐《偷感》

28场造20球!韦世豪疑不满无缘金球奖:发笑哭表情 配乐《偷感》

风过乡
2026-03-02 19:54:23
以情报部门被曝渗透到伊朗安全高层,伊朗曾组建反间谍机构,查来查去没发现问题,最后发现负责人就是以间谍,其手下还有至少20名双重间谍

以情报部门被曝渗透到伊朗安全高层,伊朗曾组建反间谍机构,查来查去没发现问题,最后发现负责人就是以间谍,其手下还有至少20名双重间谍

扬子晚报
2026-03-02 17:41:48
美以联合袭击伊朗是否提前通报中方?外交部:没有

美以联合袭击伊朗是否提前通报中方?外交部:没有

澎湃新闻
2026-03-02 15:36:34
中国为啥还不收台湾?唐湘龙的解释是我听过的最好的回答

中国为啥还不收台湾?唐湘龙的解释是我听过的最好的回答

诺言卿史录
2026-03-02 09:01:54
美国中央司令部:美军三架F-15E战机在科威特“明显遭友军误击”坠毁

美国中央司令部:美军三架F-15E战机在科威特“明显遭友军误击”坠毁

环球网资讯
2026-03-02 19:32:13
库明加转会连爆三场 老鹰球迷主场高喊:谢谢勇士!

库明加转会连爆三场 老鹰球迷主场高喊:谢谢勇士!

体坛周报
2026-03-02 16:26:34
内塔尼亚胡办公室遭猛烈袭击!伊朗:摧毁美国一总领馆及一军事基地,击落3架美军机

内塔尼亚胡办公室遭猛烈袭击!伊朗:摧毁美国一总领馆及一军事基地,击落3架美军机

新民晚报
2026-03-02 19:04:01
突发:莫斯科遭袭击

突发:莫斯科遭袭击

中国网
2026-03-02 16:38:20
川普活成自己最讨厌的人,昔日数次预言奥巴马打伊朗:为挽回颜面与支持率

川普活成自己最讨厌的人,昔日数次预言奥巴马打伊朗:为挽回颜面与支持率

不掉线电波
2026-03-02 11:07:35
伊朗货币一夜贬值97%,对普通人来说这否是时代的尘埃落在肩上?

伊朗货币一夜贬值97%,对普通人来说这否是时代的尘埃落在肩上?

闻号说经济
2026-03-02 17:08:38
伊朗生死关头,一个关键人物走向前台……

伊朗生死关头,一个关键人物走向前台……

补壹刀
2026-03-02 16:08:19
现货白银快速跳水 跌幅扩大至近6%

现货白银快速跳水 跌幅扩大至近6%

财联社
2026-03-02 22:30:10
加水加糖加废料,椰子水系统性掺假翻车!网友:真够歹毒……

加水加糖加废料,椰子水系统性掺假翻车!网友:真够歹毒……

柴狗夫斯基
2026-03-02 10:46:05
“伊朗德黑兰飞乌鲁木齐航班进入中国领空 机舱内传来广播”视频热传 川航:未开通伊朗航线

“伊朗德黑兰飞乌鲁木齐航班进入中国领空 机舱内传来广播”视频热传 川航:未开通伊朗航线

闪电新闻
2026-03-02 17:29:47
周鸿祎:360锁定3名潜伏长达十年的美国特工,并上报国家!

周鸿祎:360锁定3名潜伏长达十年的美国特工,并上报国家!

达文西看世界
2026-03-02 11:48:37
刚刚,全线暴跌!紧急救市!

刚刚,全线暴跌!紧急救市!

中国基金报
2026-03-02 17:11:34
看完这三张底牌,你就知道伊朗“带路党”要“变天”有多难?

看完这三张底牌,你就知道伊朗“带路党”要“变天”有多难?

文昌每日谈
2026-03-02 13:14:00
2026-03-02 23:48:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1331文章数 132关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

艺术
房产
数码
游戏
家居

艺术要闻

简约的风景画,美国画家Ben Bauer作品

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

数码要闻

英伟达发布595.71 WHQL驱动,修复显卡风扇“翻车”问题

《宝可梦》新作M站90分!近年最新鲜的宝可梦体验

家居要闻

万物互联 享科技福祉

无障碍浏览 进入关怀版