网易首页 > 网易号 > 正文 申请入驻

AI答IMO难题坦承“不会”,OpenAI:这就是自我意识

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

这一次,“不会”竟成了大模型的高光时刻。

虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了“高智商的诚实”。

正如OpenAI研究员Noam Brown在最新访谈中所揭示的:

  • 当IMO推理模型会在缺乏有效证据时表示“我不确定”,这会显著减少隐藏错误。



在AI摘下IMO金牌后,OpenAI金牌小分队成员Alex WeiSheryl HsuNoam Brown参与了红杉资本组织的一场对话,揭秘模型攻克精英数学难题的底层突破。

有网友帮忙总结了个太长不看版:

与过去那些“看起来完美,实则错误”的幻觉式答案不同,这一代大模型开始学会“承认自己不会”。

它标志着模型正在从胡编乱造的幻觉式回答,转向更加可靠且具有“自我认意识”的全新阶段。



三位成员还在这场对话中,分享了更多关于冲刺IMO的有趣细节。

IMO金牌模型能承认自己不知道

尽管数学家与计算机科学家一致认可IMO金牌模型的价值。

但他们常常抱怨,当模型遇到知识盲区时,它总会输出一个令人信服但错误的答案。

他们不得不耗费大量精力逐行验算,才能甄别那些幻觉陷阱。



IMO第6题让大模型全军覆没,当然,OpenAI也对其进行了大量计算。

  • 有一个由2025×2025个单位正方形组成的网格。Matilda希望在网格上放置一些矩形图块,这些图块的大小不同,但每个图块的每一条边都位于网格线上,并且每个单位正方形最多被一个图块覆盖。
  • 网格的每一行和每一列都恰好有一个未被任何瓷砖覆盖的单位正方形,求出Matilda需要放置的最少瓷砖数量。

虽然投入海量算力最终仅得到一句“我无法回答”令人有些失望,但Alex Wei表示:

  • 能看到模型避免产生幻觉是很好的。

Noam Brown也对模型的这一转变表示赞赏,“如果它不知道,它就会承认它不知道。”

这代表模型开始具备“自我意识”。

这种“自我意识”可以帮助模型在面对困难问题时,承认自己的无能为力,而不是生成一个看似合理实则错误的解决方案。

有趣的是,在Alex Wei 2024年刚加入OpenAI一周时,Noam Brown就曾问过他,团队何时能获得IMO金牌。

当时Alex Wei认为2025年不太可能实现。

但令人惊叹的是,这个三人团队仅用了两月,就完成了他们一直在追求的目标——IMO金牌。

Noam Brown还表示:

  • OpenAI有一个很棒的地方,就是研究人员有很大的自主权去做他们认为有影响力的研究。

Alex还强调,他们的团队“真正优先考虑通用技术”,而不是专门开发用于数学竞赛的系统。

OpenAI IMO金牌核心团队

OpenAI IMO核心团队仅由三名研究人员构成。



Alex Wei,本硕均就读于哈佛大学,随后在加州大学伯克利分校获得计算机科学博士学位。

Alex还曾在谷歌、微软和Meta实习,后于2024年1月加入OpenAI,现任研究科学家。他曾是FAIR团队成员,参与开发了首个用于外交游戏的人类级人工智能——CICERO。



Sheryl Hsu,毕业于斯坦福大学计算机科学专业,是斯坦福AI实验室中IRIS实验室的研究员,于2025年3月加入OpenAI。



Noam Brown,本科就读于美国罗格斯新泽西州立大学新布朗斯维克分校,随后在卡内基·梅隆大学获硕士和博士学位。他曾任职于DeepMind和Meta,于2023年6月加入OpenAI。

参考链接:
[1]https://x.com/chatgpt21/status/1950606890758476264
[2]https://www.youtube.com/watch?v=EEIPtofVe2Q

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2:4再负蒯曼!世界第二王曼昱卫冕遇阻!球迷:内战需破“心魔”

2:4再负蒯曼!世界第二王曼昱卫冕遇阻!球迷:内战需破“心魔”

番茄体坛
2025-11-10 14:02:07
敢为人先!上海鼓励事业单位人员创业,全职兼职都行,亏钱可回岗

敢为人先!上海鼓励事业单位人员创业,全职兼职都行,亏钱可回岗

火山诗话
2025-11-09 10:01:43
一手好牌打得稀烂,曾琦丈夫沉默到底,双输的局面,细节曝光!

一手好牌打得稀烂,曾琦丈夫沉默到底,双输的局面,细节曝光!

你食不食油饼
2025-11-11 08:50:08
江苏省纪委监委:任永峰接受审查调查

江苏省纪委监委:任永峰接受审查调查

鲁中晨报
2025-11-10 14:59:03
全澳炸锅! 加拿大一刀砍印度签证, 全送澳洲! 大批澳人抵制印度移民! 中国网友也崩溃了...

全澳炸锅! 加拿大一刀砍印度签证, 全送澳洲! 大批澳人抵制印度移民! 中国网友也崩溃了...

澳洲红领巾
2025-11-10 14:42:00
博主:梅西不是突然造访诺坎普的,阿根廷队正在西班牙集训

博主:梅西不是突然造访诺坎普的,阿根廷队正在西班牙集训

懂球帝
2025-11-11 09:54:06
美股全线暴涨!A股大跳水!发生什么了?

美股全线暴涨!A股大跳水!发生什么了?

龙行天下虎
2025-11-11 10:13:07
男人至死是少年?59岁的“独狼”罗马里奥和22岁的小女友分手了!

男人至死是少年?59岁的“独狼”罗马里奥和22岁的小女友分手了!

田先生篮球
2025-11-10 10:35:42
华中农业大学一学生在校内溺亡,当地警方:排除案件

华中农业大学一学生在校内溺亡,当地警方:排除案件

扬子晚报
2025-11-10 23:03:41
史上最强原始股!5岁男孩捐140元造航母,26年后“回报”惊天!

史上最强原始股!5岁男孩捐140元造航母,26年后“回报”惊天!

徐徐道史
2025-11-10 10:53:50
北京城市格局大洗牌!这3个新中心正在强势崛起!

北京城市格局大洗牌!这3个新中心正在强势崛起!

朗威谈星座
2025-11-11 08:04:09
“青云租”爆雷员工揭内幕:每个员工每月需投资30台手机,11万台集中流向两个村庄 丨封面头条

“青云租”爆雷员工揭内幕:每个员工每月需投资30台手机,11万台集中流向两个村庄 丨封面头条

封面新闻
2025-11-09 18:45:20
福建舰入列效果立竿见影!联合国安理会现名场面,美国学会了含蓄

福建舰入列效果立竿见影!联合国安理会现名场面,美国学会了含蓄

大又元
2025-11-10 12:27:37
日本天下第一香木,传为隋炀帝所赐,仅有三位人物切下小块使用

日本天下第一香木,传为隋炀帝所赐,仅有三位人物切下小块使用

收藏大视界
2025-11-09 20:38:12
普通市民梅先生,一对情侣拍摄约会视频意外将梅西也录入其中

普通市民梅先生,一对情侣拍摄约会视频意外将梅西也录入其中

懂球帝
2025-11-11 06:10:10
这周终于有救市大片了!!

这周终于有救市大片了!!

桃桃淘电影
2025-11-10 10:25:08
获得13亿欧资金注入,西甲第三豪门要起飞了?

获得13亿欧资金注入,西甲第三豪门要起飞了?

星耀国际足坛
2025-11-11 11:15:17
天外来物,文班亚马19中11砍38分12板5助5帽,三分9中6

天外来物,文班亚马19中11砍38分12板5助5帽,三分9中6

懂球帝
2025-11-11 11:39:06
180亿U盘骗局:200万人血汗钱48小时蒸发,骗子嚣张留言刺痛人心

180亿U盘骗局:200万人血汗钱48小时蒸发,骗子嚣张留言刺痛人心

流苏晚晴
2025-11-10 18:28:54
英媒:美民主党选举大胜释放三个信号

英媒:美民主党选举大胜释放三个信号

参考消息
2025-11-09 20:50:11
2025-11-11 12:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
11654文章数 176329关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

53岁独身女子寻"外包儿女"提供陪伴服务:每次两百元

头条要闻

53岁独身女子寻"外包儿女"提供陪伴服务:每次两百元

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

何超莲窦骁真的没离婚?

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

家居
教育
时尚
游戏
军事航空

家居要闻

四方食事 不过人间烟火

教育要闻

「滴滴」招实习生啦!200/天!实习证明!免费班车&餐补!

今年冬天最经典的4双鞋,年年穿都好看!

IGN试玩开放世界大作:十分享受在游戏中的时光

军事要闻

美媒承认:乌重镇即将被攻克

无障碍浏览 进入关怀版