网易首页 > 网易号 > 正文 申请入驻

万条推文“怒轰”、估值下跌, OpenAI被误导性“突破”反噬!陶哲轩:有实力,但方向错了?

0
分享至


整理 | 华卫

“搬起自己的 GPT 石头砸了自己的脚。”这是 Meta 首席 AI 科学家 Yann LeCun 对 OpenAI 研究员们的最新评价。


事件起因是,此前这些研究员因 GPT-5 的一项新数学“突破”而高调庆祝,但在受到整个 AI 社区质疑后又迅速撤回了该说法。连谷歌 DeepMind 首席执行官 Demis Hassabis 也对此提出批评,称其沟通存在疏漏。

GPT-5“突破”

被证明是一个错误

取得“突破”的消息,最早是由前微软副总裁、现 OpenAI 研究科学家 Sebastien Bubeck 放出。他在 X 上称,两位研究人员在周末借助 GPT-5 找到了 10 个埃尔德什问题(Erdős problems)的答案。埃尔德什问题是匈牙利数学家 Paul Erdős 提出的一系列数学问题的统称,其中既包含未解决的难题,也有已解决的问题,著名案例包括 “不同距离问题”(Distinct Distances Problem)与 “偏差问题”(Discrepancy Problem)。这类问题以难度高著称,常成为学界深入研究的对象,部分问题甚至设有现金奖励,鼓励研究者攻克。

10 月 18 日,OpenAI 研究员 Mark Sellke 正式宣布,经过数千次 GPT-5 的查询,其发现了 10 个原本还处于“未解状态”的埃尔德什问题的答案。此外,还有 11 个难题取得了重要的部分进展,并更新到了官网上。甚至在一道题上,他们还发现 Erdős 本人的原始论文里存在错误,这个错误由 Martínez 和 Roldán-Pensado 两位学者后来进行了修正。

随即,OpenAI 的其他研究员也纷纷宣传起这一消息。OpenAI 副总裁 Kevin Weil 转发了 Sellke 的帖子并确认了情况,“GPT-5 解决了 10 个(!)此前未解决的埃尔德什问题(Erdős problems),并在另外 11 个问题上取得了进展。”


然而目前,这几位 OpenAI 研究员都已删除了以上帖子。

他们的表述听起来像是,GPT-5 独立地为复杂的数论问题生成了数学证明,这不仅可能是一项重大科学突破,还意味着生成式 AI 有望发现未知解决方案,展现出推动创新性研究、为重大进展铺路的能力。但事情却并非如此,说法很快就被推翻了。

负责维护埃尔德什问题网站的数学家 Thomas Bloom 出来发声,称以上帖子 “存在严重失实”。他表示,“GPT-5 只是找到了一些能解决这些问题的参考文献,而这些文献是我个人之前未曾知晓的。网站上标注的 ‘未解决’(open)状态,仅代表我个人尚未了解有能解决该问题的论文。”


即便在 OpenAI 内部,说法也发生了转变。先前高调宣传 GPT-5 成就的 Bubeck 承认,“(GPT-5)只找到了文献中已有的解决方案”。但他认为,这仍算一项切实的成就,“我清楚检索文献的难度有多大。”Hassabis 对此评价道,“这太尴尬了。”

误导性声明带来“反噬 ”

最初的相关推文已基本删除,涉事研究员也承认了错误。

尽管如此,这起事件仍让外界进一步认为,OpenAI 是一家承受着巨大压力、且行事风格较轻率的机构。人们不禁质疑:为何顶尖 AI 研究员会在未核实事实的情况下,就发布如此耸动的言论?尤其是在这个本就充斥着炒作、且涉及数十亿美元利益的领域。

据外媒报道,在社交平台上,“OpenAIFail”等话题标签热度攀升,短短几天内就有超过 1 万条推文表达了对 OpenAI 数学领域所谓 “成就” 的失望与质疑。并且,此事一出,OpenAI 与股票挂钩的估值指标在盘前交易中大幅下跌。

监管机构也正在加强审查。据外媒报道,美国联邦贸易委员会(FTC)已开始调查 OpenAI 的行为是否构成虚假广告行为,可能面临罚款或其他处罚。与此同时,立法者呼吁在人工智能研究中提高透明度,参议员 Maria Cantwell 表示,“我们需要确保人工智能的进步不会被夸大给公众,因为这会削弱公众对这项技术和其应用的信任。”

另外,美国监管机构在发现 OpenAI 通过未公开的与 Epoch AI 的资金关系获得了对 FrontierMath 基准测试的内部优先访问权后,正加强对 OpenAI 的审查,引发了关于公平竞争和基准测试透明度的担忧。Epoch AI 的一位助理总监确认 OpenAI 可以访问大部分基准测试数据,但除了一个“保留”数据集外,并强调只有“口头协议”阻止了其用于训练,这为潜在的操纵留下了可能。此前,在达沃斯论坛上,著名的通用人工智能(AGI)怀疑论者 Gary Marcus 称 OpenAI 的公开演示“具有操纵性”。

AI 推动数学领域的

“实力”,陶哲轩在认可

由于误导性的宣传,此事背后真正有价值的信息似乎被掩盖了:事实上,GPT-5 在追踪相关学术论文的研究工具层面,展现出了实用价值。对于那些文献分布零散、或术语表述不统一的研究问题而言,这种能力尤为重要。

著名数学家、加州大学洛杉矶分校数学教授陶哲轩(Terence Tao)多次在公开场合表示,AI 助手可以改变数学研究。

10 月 17 日,他在一条帖子中强调,AI 在数学领域最富有成效的应用,并非是将最强大的模型用于攻克最具挑战性的难题,而是借助中等算力的工具,去加速和规模化处理那些更普通、更耗时却依然关键的研究任务。这一过程中,需依托人类在这类任务上积累的经验与理解,来指导、验证人工智能的输出,并将其安全整合到研究流程中。陶哲轩表示,尽管 AI 在解决棘手问题方面有过一些 “零散的进展案例”,但是在投入大量计算资源和专家精力的情况下。

而这类常规任务的一个典型例子就是文献综述:为特定问题查找相关的既往文献。若某个问题已有公认的名称,且存在成熟的研究社群专门致力于该问题,那么现有的网络搜索和文献检索工具已足以找到该问题的过往及最新文献。具体而言,这些文献之间的引文网络密度较高,研究者只需从该领域的一篇核心论文入手,通过正向和反向引文检索,就能对该问题的当前研究现状形成相对完整的认知。

并且,陶哲轩也在帖子中提及了用 AI 找出解决埃尔德什问题的相关文献的例子。此外,他还进一步指出了应用 AI 来做文献综述的多方面好处:

文献检索工具的输出结果可由人类独立验证,这一特性使其成为 AI 的合适应用场景(前提是使用者具备足够专业能力来完成验证)。尤其是在需要依次检索多个问题、而非仅聚焦单个问题时,这一优势更为明显。在这类场景中,人工智能输出结果的成功率无需达到 100%;只需满足:在投入同等时间和精力的前提下,相比传统非 AI 驱动的检索方式,它能带来更多有用结果(同时减少无用结果)即可。此外,学习如何正确使用 AI 工具的初始时间投入,可通过多次使用分摊成本。因此,当需要规模化应用检索功能时,这种 AI 工具的使用方式会格外具有吸引力。

若由人类进行文献综述,最终未找到相关文献时,这类结果往往不会被明确记录(尽管文献中有时会出现 “据我们所知,这是该问题的首个已知研究进展” 这类表述)。这背后或许存在一种顾虑:若后续有人发现了一篇此前综述中被遗漏的相关论文,参与综述的研究者可能会因此感到尴尬。这种情况可能引发两种问题:一方面,若多次检索同一问题却未发现相关文献的失败结果从未被报告,多位研究者可能会重复投入精力,徒劳地搜索不存在的文献;另一方面,人们可能会错误地认为某个问题仍未解决,但实际上此前从未有人开展过严谨的文献综述,而该问题的解决方案早已存在于现有文献中。

但当我们利用 AI 驱动的文献综述工具,对大量问题系统性地开展检索时,同时报告 “阳性结果”(找到相关文献)和 “阴性结果” 会变得更加自然。例如可以这样表述:“在该工具检索的 36 个问题中,24 个(占比 66%)返回了经我们判定为相关的新增结果,12 个(占比 33%)仅返回了我们已掌握的文献或无关文献。” 这种做法有助于更准确地呈现某一问题的现有文献实际情况。

此前,他还曾提到,生成式 AI 有望推动数学研究 “工业化”,加速该领域的发展进程。不过他也强调,在审查、分类 AI 生成的结果,并将其安全整合到实际研究中时,人类的专业判断仍是关键。

https://the-decoder.com/leading-openai-researcher-announced-a-gpt-5-math-breakthrough-that-never-happened/

https://mathstodon.xyz/@tao/115385022005130505

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

活动预告

今年的必冲赛事来了!

【2025 深圳国际金融科技大赛】正式启动!

海内外高校学生均可参赛!划重点:

✅ 总额 50 万奖金 + 实体证书奖杯

✅ 院士、长江学者等豪华顾问团

✅ 国内外在读本硕博均可报名,AI、金融、计算机、数学等专业超适配

⏰ 报名时间:即日起 - 11 月 16 日

会议推荐

10 月 23-25 日 QCon 上海站开幕倒计时 3 天,3 天沉浸式学习,100+ 工程实战案例,直面一线的挑战与解法。大会将聚焦 AgenticAI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践。一票难求,立即扫码预占席位!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
波克罗夫斯克会成为下一个巴赫穆特吗?

波克罗夫斯克会成为下一个巴赫穆特吗?

山河路口
2025-11-03 17:06:51
定了!北京最大山姆会员店月内开业

定了!北京最大山姆会员店月内开业

食材界
2025-11-04 12:13:02
三观炸裂!翟欣欣出轨聊天记录流出,尺度大到咂舌,判12年都嫌少

三观炸裂!翟欣欣出轨聊天记录流出,尺度大到咂舌,判12年都嫌少

有范又有料
2025-09-29 14:21:11
大裁军时,他被推荐从军长直提大军区司令,后任总后部长、总长等

大裁军时,他被推荐从军长直提大军区司令,后任总后部长、总长等

历史龙元阁
2025-11-03 18:15:03
上海楼市,泥沙俱下

上海楼市,泥沙俱下

楼宇缝隙
2025-11-04 14:24:59
山姆翻车再上热搜!商品头图全是假的,网友刷屏“辞退高管”

山姆翻车再上热搜!商品头图全是假的,网友刷屏“辞退高管”

雷科技
2025-11-04 14:50:05
真空吊带裙下的惊艳腰臀比,孟子义化身人间尤物?

真空吊带裙下的惊艳腰臀比,孟子义化身人间尤物?

娱乐领航家
2025-11-03 22:00:03
莱昂纳德错失绝杀!哈登空砍29+7+8 关键三分险助快船翻盘

莱昂纳德错失绝杀!哈登空砍29+7+8 关键三分险助快船翻盘

狍子歪解体坛
2025-11-04 14:00:00
落地的凤凰不如鸡,44岁消失的玲花,终是为搭档的行为买了单

落地的凤凰不如鸡,44岁消失的玲花,终是为搭档的行为买了单

湘村大余
2025-11-04 21:54:04
全运会:郭士强观战辽篮50分狂胜吉林 赵继伟15+11付豪20分

全运会:郭士强观战辽篮50分狂胜吉林 赵继伟15+11付豪20分

醉卧浮生
2025-11-04 15:03:47
天安门前的华表柱是用来干什么的?

天安门前的华表柱是用来干什么的?

壹贰叁的壹
2025-07-07 09:54:36
A股:刚刚,央行权威发布,明日7000亿投放,周三迎来绝地反击?

A股:刚刚,央行权威发布,明日7000亿投放,周三迎来绝地反击?

夜深爱杂谈
2025-11-04 20:50:11
茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

阿纂看事
2025-10-13 15:36:03
赢得世界杯不是我的梦想!C罗:7场比赛定义历史最佳,这公平吗

赢得世界杯不是我的梦想!C罗:7场比赛定义历史最佳,这公平吗

奥拜尔
2025-11-04 23:01:39
广东全运开门红!杜锋回应杨鸣言论保持低调,赵睿总结上下半场!

广东全运开门红!杜锋回应杨鸣言论保持低调,赵睿总结上下半场!

细话篮球
2025-11-04 22:35:12
男子留尼姑过夜,尼姑却与他同睡,尼姑:我这是在救你!

男子留尼姑过夜,尼姑却与他同睡,尼姑:我这是在救你!

千秋文化
2025-10-08 11:17:06
拖欠工资、经责令改正拒不改正,中山3家企业被罚

拖欠工资、经责令改正拒不改正,中山3家企业被罚

南方都市报
2025-11-04 19:22:06
官宣:四川在全省推行中小学春秋假

官宣:四川在全省推行中小学春秋假

人力资源报
2025-11-04 16:51:29
王岳伦带女出席活动,王诗龄1米7身高超何超莲,少女感穿搭获赞

王岳伦带女出席活动,王诗龄1米7身高超何超莲,少女感穿搭获赞

述家娱记
2025-11-02 22:35:31
你见过最狠的人有多狠?网友:好家伙,这么狠的人超乎我的想象力

你见过最狠的人有多狠?网友:好家伙,这么狠的人超乎我的想象力

带你感受人间冷暖
2025-11-02 00:15:03
2025-11-04 23:23:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1103文章数 104关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

深圳水贝市场金价大涨 有投资者请同城跑腿紧急取货

头条要闻

深圳水贝市场金价大涨 有投资者请同城跑腿紧急取货

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

爸爸去哪儿6孩子现状,个个不同

财经要闻

马斯克"万亿薪酬"计划,突爆重大利空

汽车要闻

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

亲子
健康
手机
房产
时尚

亲子要闻

幼儿园免费背后藏着影响每个家庭的人口危机。

超声探头会加重受伤情况吗?

手机要闻

疑似vivo X300 Ultra曝光,有望首发双2亿影像方案

房产要闻

信达·繁花里 | 老照片征集活动 温情启幕

卷首语 | 拒绝和解的勇气

无障碍浏览 进入关怀版