网易首页 > 网易号 > 正文 申请入驻

AI答IMO难题坦承“不会”,OpenAI:这就是自我意识

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

这一次,“不会”竟成了大模型的高光时刻。

虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了“高智商的诚实”。

正如OpenAI研究员Noam Brown在最新访谈中所揭示的:

  • 当IMO推理模型会在缺乏有效证据时表示“我不确定”,这会显著减少隐藏错误。

在AI摘下IMO金牌后,OpenAI金牌小分队成员Alex WeiSheryl HsuNoam Brown参与了红杉资本组织的一场对话,揭秘模型攻克精英数学难题的底层突破。

有网友帮忙总结了个太长不看版:

与过去那些“看起来完美,实则错误”的幻觉式答案不同,这一代大模型开始学会“承认自己不会”。

它标志着模型正在从胡编乱造的幻觉式回答,转向更加可靠且具有“自我认意识”的全新阶段。

三位成员还在这场对话中,分享了更多关于冲刺IMO的有趣细节。

IMO金牌模型能承认自己不知道

尽管数学家与计算机科学家一致认可IMO金牌模型的价值。

但他们常常抱怨,当模型遇到知识盲区时,它总会输出一个令人信服但错误的答案。

他们不得不耗费大量精力逐行验算,才能甄别那些幻觉陷阱。

IMO第6题让大模型全军覆没,当然,OpenAI也对其进行了大量计算。

  • 有一个由2025×2025个单位正方形组成的网格。Matilda希望在网格上放置一些矩形图块,这些图块的大小不同,但每个图块的每一条边都位于网格线上,并且每个单位正方形最多被一个图块覆盖。
  • 网格的每一行和每一列都恰好有一个未被任何瓷砖覆盖的单位正方形,求出Matilda需要放置的最少瓷砖数量。

虽然投入海量算力最终仅得到一句“我无法回答”令人有些失望,但Alex Wei表示:

  • 能看到模型避免产生幻觉是很好的。

Noam Brown也对模型的这一转变表示赞赏,“如果它不知道,它就会承认它不知道。”

这代表模型开始具备“自我意识”。

这种“自我意识”可以帮助模型在面对困难问题时,承认自己的无能为力,而不是生成一个看似合理实则错误的解决方案。

有趣的是,在Alex Wei 2024年刚加入OpenAI一周时,Noam Brown就曾问过他,团队何时能获得IMO金牌。

当时Alex Wei认为2025年不太可能实现。

但令人惊叹的是,这个三人团队仅用了两月,就完成了他们一直在追求的目标——IMO金牌。

Noam Brown还表示:

  • OpenAI有一个很棒的地方,就是研究人员有很大的自主权去做他们认为有影响力的研究。

Alex还强调,他们的团队“真正优先考虑通用技术”,而不是专门开发用于数学竞赛的系统。

OpenAI IMO金牌核心团队

OpenAI IMO核心团队仅由三名研究人员构成。

Alex Wei,本硕均就读于哈佛大学,随后在加州大学伯克利分校获得计算机科学博士学位。

Alex还曾在谷歌、微软和Meta实习,后于2024年1月加入OpenAI,现任研究科学家。他曾是FAIR团队成员,参与开发了首个用于外交游戏的人类级人工智能——CICERO。

Sheryl Hsu,毕业于斯坦福大学计算机科学专业,是斯坦福AI实验室中IRIS实验室的研究员,于2025年3月加入OpenAI。

Noam Brown,本科就读于美国罗格斯新泽西州立大学新布朗斯维克分校,随后在卡内基·梅隆大学获硕士和博士学位。他曾任职于DeepMind和Meta,于2023年6月加入OpenAI。

参考链接:
[1]https://x.com/chatgpt21/status/1950606890758476264
[2]https://www.youtube.com/watch?v=EEIPtofVe2Q

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法布雷加斯否认执教切尔西传闻!德天空:巴萨正运作布鲁日新星!

法布雷加斯否认执教切尔西传闻!德天空:巴萨正运作布鲁日新星!

足球侦探
2026-04-26 08:35:07
风水轮流转!分手13年熊黛林首谈前任,郭富城终究沦为全网笑话

风水轮流转!分手13年熊黛林首谈前任,郭富城终究沦为全网笑话

一盅情怀
2026-04-25 16:37:25
千岛湖又面临两大困难:鲢鳙放养60多年,“保水鱼”保住了什么?

千岛湖又面临两大困难:鲢鳙放养60多年,“保水鱼”保住了什么?

花小猫的美食日常
2026-04-25 00:18:49
多艘船通过霍尔木兹海峡!海峡通行步骤曝光:共分4步,伊朗审查设5档国籍分级,“越友好越宽松”,收多少钱取决于是哪国的船

多艘船通过霍尔木兹海峡!海峡通行步骤曝光:共分4步,伊朗审查设5档国籍分级,“越友好越宽松”,收多少钱取决于是哪国的船

扬子晚报
2026-04-25 07:09:10
10亿违建豪宅一夜推平,背后“大人物”被扒,官媒:一点都不冤!

10亿违建豪宅一夜推平,背后“大人物”被扒,官媒:一点都不冤!

网络易不易
2026-04-19 06:05:07
日本网友疯换中文手机界面,直呼清爽十倍,中国文化悄悄出圈!

日本网友疯换中文手机界面,直呼清爽十倍,中国文化悄悄出圈!

行者聊官
2026-04-24 20:48:30
以色列,突然发动袭击!

以色列,突然发动袭击!

每日经济新闻
2026-04-25 23:31:10
芯片观察者:美国先将中国芯片锁死在28nm,然后打击成熟芯片扩产

芯片观察者:美国先将中国芯片锁死在28nm,然后打击成熟芯片扩产

蜉蝣说
2026-04-24 11:38:51
华晨宇演唱会延期哭了,抚仙湖居民发声:那我们之前的牺牲算什么

华晨宇演唱会延期哭了,抚仙湖居民发声:那我们之前的牺牲算什么

童叔不飙车
2026-04-26 00:01:32
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
72岁林青霞现身香港中文大学,头发浓密,发际线也没上移状态超好

72岁林青霞现身香港中文大学,头发浓密,发际线也没上移状态超好

点点细语
2026-04-25 20:15:26
46岁马宁领取亚足联奖牌 霸气闪耀亚冠决赛 罚下主队球员:你出去

46岁马宁领取亚足联奖牌 霸气闪耀亚冠决赛 罚下主队球员:你出去

风过乡
2026-04-26 06:28:50
于和伟,获最佳男主角

于和伟,获最佳男主角

澎湃新闻
2026-04-25 22:54:06
“香港演员几乎全军覆没! 无戏可拍”引发网友热议

“香港演员几乎全军覆没! 无戏可拍”引发网友热议

许三岁
2026-03-26 11:35:13
纯素颜亮相!张凌赫打破粉底液将军争议,官媒批评他是真听进去了

纯素颜亮相!张凌赫打破粉底液将军争议,官媒批评他是真听进去了

可乐谈情感
2026-04-26 06:32:16
医保局联合财政部出新规!医保账户调整,退休后每月还能返钱吗?

医保局联合财政部出新规!医保账户调整,退休后每月还能返钱吗?

复转这些年
2026-04-25 18:23:41
伊朗外长提前离场,美方宣布取消美伊会谈

伊朗外长提前离场,美方宣布取消美伊会谈

中国日报网
2026-04-26 02:59:09
雷电+10级雷雨阵风,“强对流”袭鲁!青岛的雨+大风马上到货,将持续到明天→

雷电+10级雷雨阵风,“强对流”袭鲁!青岛的雨+大风马上到货,将持续到明天→

先锋新闻
2026-04-26 08:17:07
美国全面封锁伊朗进出口,对伊朗的伤害有多大?

美国全面封锁伊朗进出口,对伊朗的伤害有多大?

高博新视野
2026-04-24 07:30:14
开始了!凯特王妃全权代表查尔斯出席活动,保持温莎世袭制的惯例

开始了!凯特王妃全权代表查尔斯出席活动,保持温莎世袭制的惯例

残梦断忆
2026-04-26 06:07:22
2026-04-26 09:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12534文章数 176457关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

2万海员在霍尔木兹海峡成"活靶子":或随时被炸成灰烬

头条要闻

2万海员在霍尔木兹海峡成"活靶子":或随时被炸成灰烬

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

健康
本地
家居
艺术
军事航空

干细胞如何让烧烫伤皮肤"再生"?

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

家居要闻

自然肌理 温润美学

艺术要闻

毛泽东写小字,太潇洒了

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版