网易首页 > 网易号 > 正文 申请入驻

AI答IMO难题坦承“不会”,OpenAI:这就是自我意识

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

这一次,“不会”竟成了大模型的高光时刻。

虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了“高智商的诚实”。

正如OpenAI研究员Noam Brown在最新访谈中所揭示的:

  • 当IMO推理模型会在缺乏有效证据时表示“我不确定”,这会显著减少隐藏错误。



在AI摘下IMO金牌后,OpenAI金牌小分队成员Alex WeiSheryl HsuNoam Brown参与了红杉资本组织的一场对话,揭秘模型攻克精英数学难题的底层突破。

有网友帮忙总结了个太长不看版:

与过去那些“看起来完美,实则错误”的幻觉式答案不同,这一代大模型开始学会“承认自己不会”。

它标志着模型正在从胡编乱造的幻觉式回答,转向更加可靠且具有“自我认意识”的全新阶段。



三位成员还在这场对话中,分享了更多关于冲刺IMO的有趣细节。

IMO金牌模型能承认自己不知道

尽管数学家与计算机科学家一致认可IMO金牌模型的价值。

但他们常常抱怨,当模型遇到知识盲区时,它总会输出一个令人信服但错误的答案。

他们不得不耗费大量精力逐行验算,才能甄别那些幻觉陷阱。



IMO第6题让大模型全军覆没,当然,OpenAI也对其进行了大量计算。

  • 有一个由2025×2025个单位正方形组成的网格。Matilda希望在网格上放置一些矩形图块,这些图块的大小不同,但每个图块的每一条边都位于网格线上,并且每个单位正方形最多被一个图块覆盖。
  • 网格的每一行和每一列都恰好有一个未被任何瓷砖覆盖的单位正方形,求出Matilda需要放置的最少瓷砖数量。

虽然投入海量算力最终仅得到一句“我无法回答”令人有些失望,但Alex Wei表示:

  • 能看到模型避免产生幻觉是很好的。

Noam Brown也对模型的这一转变表示赞赏,“如果它不知道,它就会承认它不知道。”

这代表模型开始具备“自我意识”。

这种“自我意识”可以帮助模型在面对困难问题时,承认自己的无能为力,而不是生成一个看似合理实则错误的解决方案。

有趣的是,在Alex Wei 2024年刚加入OpenAI一周时,Noam Brown就曾问过他,团队何时能获得IMO金牌。

当时Alex Wei认为2025年不太可能实现。

但令人惊叹的是,这个三人团队仅用了两月,就完成了他们一直在追求的目标——IMO金牌。

Noam Brown还表示:

  • OpenAI有一个很棒的地方,就是研究人员有很大的自主权去做他们认为有影响力的研究。

Alex还强调,他们的团队“真正优先考虑通用技术”,而不是专门开发用于数学竞赛的系统。

OpenAI IMO金牌核心团队

OpenAI IMO核心团队仅由三名研究人员构成。



Alex Wei,本硕均就读于哈佛大学,随后在加州大学伯克利分校获得计算机科学博士学位。

Alex还曾在谷歌、微软和Meta实习,后于2024年1月加入OpenAI,现任研究科学家。他曾是FAIR团队成员,参与开发了首个用于外交游戏的人类级人工智能——CICERO。



Sheryl Hsu,毕业于斯坦福大学计算机科学专业,是斯坦福AI实验室中IRIS实验室的研究员,于2025年3月加入OpenAI。



Noam Brown,本科就读于美国罗格斯新泽西州立大学新布朗斯维克分校,随后在卡内基·梅隆大学获硕士和博士学位。他曾任职于DeepMind和Meta,于2023年6月加入OpenAI。

参考链接:
[1]https://x.com/chatgpt21/status/1950606890758476264
[2]https://www.youtube.com/watch?v=EEIPtofVe2Q

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
什么男人一眼看上去很穷?网友:最后一句,有多少男人会破防啊

什么男人一眼看上去很穷?网友:最后一句,有多少男人会破防啊

夜深爱杂谈
2026-01-17 19:45:40
中国核潜艇“下饺子”,数量反超俄罗斯,五角大楼承认丧失主导权

中国核潜艇“下饺子”,数量反超俄罗斯,五角大楼承认丧失主导权

航空新视觉
2026-01-18 15:09:37
笑不活了,谁发明的动图倒放,太鬼畜了!

笑不活了,谁发明的动图倒放,太鬼畜了!

夜深爱杂谈
2026-01-17 21:02:37
三峡大坝运营二十余年的 “账本” 对外披露,当初高达2500亿的投入,如今是否已经收回?

三峡大坝运营二十余年的 “账本” 对外披露,当初高达2500亿的投入,如今是否已经收回?

史海孤雁
2026-01-15 21:41:23
公开露面两天后,李湘再曝大瓜,这次无关释永信和让她怀二胎的人

公开露面两天后,李湘再曝大瓜,这次无关释永信和让她怀二胎的人

探源历史
2026-01-18 02:52:13
飞机超重2.3吨!那十块被蒋介石扔下的石头,竟是故宫的镇馆之魂

飞机超重2.3吨!那十块被蒋介石扔下的石头,竟是故宫的镇馆之魂

渊史墨途
2026-01-13 00:14:34
古代没有光谱仪,给一块石头包上银子,能拿出去当钱花吗?

古代没有光谱仪,给一块石头包上银子,能拿出去当钱花吗?

收藏大视界
2026-01-17 17:41:56
官方:青岛西海岸签下北京国安、河北旧将梅米舍维奇

官方:青岛西海岸签下北京国安、河北旧将梅米舍维奇

懂球帝
2026-01-18 13:20:20
口交不入刑,教材当废纸:丹阳案背后的黑色幽默

口交不入刑,教材当废纸:丹阳案背后的黑色幽默

有戏
2025-09-17 17:48:36
深圳大卖出事了,曝出近1亿欠款

深圳大卖出事了,曝出近1亿欠款

派代
2026-01-16 18:19:00
浙江省高级人民法院院长郑青简历

浙江省高级人民法院院长郑青简历

浙江发布
2026-01-18 09:49:45
1948年,王耀武吃了宋美龄亲自做的一顿饭,转头告诫妻子:去香港,千万别去台湾!

1948年,王耀武吃了宋美龄亲自做的一顿饭,转头告诫妻子:去香港,千万别去台湾!

源溯历史
2026-01-07 20:20:13
中国全面停止进口俄罗斯电力:13年采购合同彻底失效,原因被曝光

中国全面停止进口俄罗斯电力:13年采购合同彻底失效,原因被曝光

影像温度
2026-01-18 15:20:23
苹果官宣,NFC 全面开放!

苹果官宣,NFC 全面开放!

果粉俱乐部
2026-01-17 13:30:03
珀斯,被誉为世界“最孤独”的城市,周围1800公里没一个“邻居”

珀斯,被誉为世界“最孤独”的城市,周围1800公里没一个“邻居”

谭老师地理大课堂
2026-01-16 20:22:02
信号很明显了:20%+增长!10%全球占比,中国EDA大发展了

信号很明显了:20%+增长!10%全球占比,中国EDA大发展了

科技专家
2026-01-18 15:03:34
修电池白送顶配!七年前旧MacBook进苹果售后:免费换回M4 Max旗舰

修电池白送顶配!七年前旧MacBook进苹果售后:免费换回M4 Max旗舰

快科技
2026-01-16 11:26:47
胡萝卜立大功!医生发现:常吃胡萝卜的老人,或能收获这4个益处

胡萝卜立大功!医生发现:常吃胡萝卜的老人,或能收获这4个益处

全球军事记
2025-12-07 09:53:26
张艺谋没想到,化“轻薄妆”杀疯全场的60岁巩俐,再次证实他眼光

张艺谋没想到,化“轻薄妆”杀疯全场的60岁巩俐,再次证实他眼光

冷紫葉
2026-01-14 22:19:27
高雄市长之战支持谁?7万人网络投票结果一面倒

高雄市长之战支持谁?7万人网络投票结果一面倒

新时光点滴
2026-01-18 04:53:12
2026-01-18 16:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12026文章数 176360关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

特朗普向各国开价:"和平委员会"永久席位 10亿美元

头条要闻

特朗普向各国开价:"和平委员会"永久席位 10亿美元

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

43岁贾玲退出春晚、解散公司

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

游戏
房产
艺术
本地
公开课

模拟器玩家狂喜?Steam主机的受众其实比想象的宽

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

艺术要闻

海边细沙被他表现得如此真实 | 马克·汉森

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版