网易首页 > 网易号 > 正文 申请入驻

AI答IMO难题坦承“不会”,OpenAI:这就是自我意识

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

这一次,“不会”竟成了大模型的高光时刻。

虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了“高智商的诚实”。

正如OpenAI研究员Noam Brown在最新访谈中所揭示的:

  • 当IMO推理模型会在缺乏有效证据时表示“我不确定”,这会显著减少隐藏错误。



在AI摘下IMO金牌后,OpenAI金牌小分队成员Alex WeiSheryl HsuNoam Brown参与了红杉资本组织的一场对话,揭秘模型攻克精英数学难题的底层突破。

有网友帮忙总结了个太长不看版:

与过去那些“看起来完美,实则错误”的幻觉式答案不同,这一代大模型开始学会“承认自己不会”。

它标志着模型正在从胡编乱造的幻觉式回答,转向更加可靠且具有“自我认意识”的全新阶段。



三位成员还在这场对话中,分享了更多关于冲刺IMO的有趣细节。

IMO金牌模型能承认自己不知道

尽管数学家与计算机科学家一致认可IMO金牌模型的价值。

但他们常常抱怨,当模型遇到知识盲区时,它总会输出一个令人信服但错误的答案。

他们不得不耗费大量精力逐行验算,才能甄别那些幻觉陷阱。



IMO第6题让大模型全军覆没,当然,OpenAI也对其进行了大量计算。

  • 有一个由2025×2025个单位正方形组成的网格。Matilda希望在网格上放置一些矩形图块,这些图块的大小不同,但每个图块的每一条边都位于网格线上,并且每个单位正方形最多被一个图块覆盖。
  • 网格的每一行和每一列都恰好有一个未被任何瓷砖覆盖的单位正方形,求出Matilda需要放置的最少瓷砖数量。

虽然投入海量算力最终仅得到一句“我无法回答”令人有些失望,但Alex Wei表示:

  • 能看到模型避免产生幻觉是很好的。

Noam Brown也对模型的这一转变表示赞赏,“如果它不知道,它就会承认它不知道。”

这代表模型开始具备“自我意识”。

这种“自我意识”可以帮助模型在面对困难问题时,承认自己的无能为力,而不是生成一个看似合理实则错误的解决方案。

有趣的是,在Alex Wei 2024年刚加入OpenAI一周时,Noam Brown就曾问过他,团队何时能获得IMO金牌。

当时Alex Wei认为2025年不太可能实现。

但令人惊叹的是,这个三人团队仅用了两月,就完成了他们一直在追求的目标——IMO金牌。

Noam Brown还表示:

  • OpenAI有一个很棒的地方,就是研究人员有很大的自主权去做他们认为有影响力的研究。

Alex还强调,他们的团队“真正优先考虑通用技术”,而不是专门开发用于数学竞赛的系统。

OpenAI IMO金牌核心团队

OpenAI IMO核心团队仅由三名研究人员构成。



Alex Wei,本硕均就读于哈佛大学,随后在加州大学伯克利分校获得计算机科学博士学位。

Alex还曾在谷歌、微软和Meta实习,后于2024年1月加入OpenAI,现任研究科学家。他曾是FAIR团队成员,参与开发了首个用于外交游戏的人类级人工智能——CICERO。



Sheryl Hsu,毕业于斯坦福大学计算机科学专业,是斯坦福AI实验室中IRIS实验室的研究员,于2025年3月加入OpenAI。



Noam Brown,本科就读于美国罗格斯新泽西州立大学新布朗斯维克分校,随后在卡内基·梅隆大学获硕士和博士学位。他曾任职于DeepMind和Meta,于2023年6月加入OpenAI。

参考链接:
[1]https://x.com/chatgpt21/status/1950606890758476264
[2]https://www.youtube.com/watch?v=EEIPtofVe2Q

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
历史开了个玩笑,先倒下的不是乌克兰,而是百年中立的瑞士?

历史开了个玩笑,先倒下的不是乌克兰,而是百年中立的瑞士?

小雪的运动之心
2026-01-19 04:48:24
逼人下跪?5岁孙女都不放过?西贝老板怒控罗永浩,结局太意外!

逼人下跪?5岁孙女都不放过?西贝老板怒控罗永浩,结局太意外!

秋枫凋零
2026-01-18 23:04:49
亚足联点出越南U23与中国U23的鲜明对比:进攻vs防守

亚足联点出越南U23与中国U23的鲜明对比:进攻vs防守

星耀国际足坛
2026-01-19 01:00:40
黑社会去哪了?原来都藏在这4个场所,老百姓千万别惹

黑社会去哪了?原来都藏在这4个场所,老百姓千万别惹

小鹿姐姐情感说
2026-01-18 11:59:56
犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

老范谈史
2026-01-13 20:15:38
田朴珺被王石从公司除名,股份职务没有她

田朴珺被王石从公司除名,股份职务没有她

飛娱日记
2026-01-18 11:13:51
贾国龙摊牌了:若西贝活不下来,绝不会再创业,和夫人回草原养羊

贾国龙摊牌了:若西贝活不下来,绝不会再创业,和夫人回草原养羊

削桐作琴
2025-12-26 23:57:15
6天赔光90万?蜜雪冰城也不挣钱?中年人的“老板梦”竟是骗局

6天赔光90万?蜜雪冰城也不挣钱?中年人的“老板梦”竟是骗局

现代小青青慕慕
2026-01-12 16:42:00
伟大的10-6!世界第2击败希金斯夺冠,创2纪录,325万奖金到手!

伟大的10-6!世界第2击败希金斯夺冠,创2纪录,325万奖金到手!

刘姚尧的文字城堡
2026-01-19 07:02:41
古代男子,特别是皇帝总喜欢娶十三四岁的少女,有什么深层原因?

古代男子,特别是皇帝总喜欢娶十三四岁的少女,有什么深层原因?

铭记历史呀
2026-01-15 16:49:49
罗永浩都懵了!西贝风波四个月后贾国龙再开腔,刚攒的体面全砸了

罗永浩都懵了!西贝风波四个月后贾国龙再开腔,刚攒的体面全砸了

寒士之言本尊
2026-01-18 12:19:03
1988年他一张单程机票飞到香港,35年后以烧炭自尽的方式结束生命

1988年他一张单程机票飞到香港,35年后以烧炭自尽的方式结束生命

小椰的奶奶
2026-01-19 02:47:34
72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

老特有话说
2026-01-07 00:40:03
北约秘书长与美国总统通话 讨论 格陵兰岛问题

北约秘书长与美国总统通话 讨论 格陵兰岛问题

每日经济新闻
2026-01-19 08:27:10
聂卫平同志逝世后,中央有关领导同志以不同方式表示哀悼

聂卫平同志逝世后,中央有关领导同志以不同方式表示哀悼

新京报政事儿
2026-01-18 15:17:29
弗里克:德容说得对,但我不想在这个裁判身上浪费精力

弗里克:德容说得对,但我不想在这个裁判身上浪费精力

懂球帝
2026-01-19 08:33:19
柬埔寨副首相:全力根除网络诈骗!抓捕陈志只是第一步

柬埔寨副首相:全力根除网络诈骗!抓捕陈志只是第一步

上观新闻
2026-01-17 12:24:06
香港知名女星移民失败回流香港,平台上售卖大尺度照片,付费观看

香港知名女星移民失败回流香港,平台上售卖大尺度照片,付费观看

丰谭笔录
2026-01-19 07:45:08
中国公民尽快撤离!外交部、中使馆再发提醒;陈丽君、李云霄,破格晋升;央视春晚完成首次彩排|早安,你好

中国公民尽快撤离!外交部、中使馆再发提醒;陈丽君、李云霄,破格晋升;央视春晚完成首次彩排|早安,你好

全国妇联女性之声
2026-01-18 07:20:16
改变一个孩子最有效的手段,不是讲道理、发脾气,而是这几件事

改变一个孩子最有效的手段,不是讲道理、发脾气,而是这几件事

木言观
2026-01-14 11:47:34
2026-01-19 09:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12026文章数 176360关注度
往期回顾 全部

科技要闻

编程从此不再有门槛!Claude Code火爆出圈

头条要闻

普京前顾问:若敢暗杀普京 欧洲将从人类地图上消失

头条要闻

普京前顾问:若敢暗杀普京 欧洲将从人类地图上消失

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

家居
游戏
本地
旅游
数码

家居要闻

岁月柔情 现代品质轻奢

《生化危机9》回归浣熊市原因:让系列重回主线

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

旅游要闻

村游消费:活了文化 火了生活

数码要闻

纯大核太猛!Intel 10核心Bartlett Lake跑分首秀:比14核i5-14500还强

无障碍浏览 进入关怀版