网易首页 > 网易号 > 正文 申请入驻

AI答IMO难题坦承“不会”,OpenAI:这就是自我意识

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

这一次,“不会”竟成了大模型的高光时刻。

虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了“高智商的诚实”。

正如OpenAI研究员Noam Brown在最新访谈中所揭示的:

  • 当IMO推理模型会在缺乏有效证据时表示“我不确定”,这会显著减少隐藏错误。



在AI摘下IMO金牌后,OpenAI金牌小分队成员Alex WeiSheryl HsuNoam Brown参与了红杉资本组织的一场对话,揭秘模型攻克精英数学难题的底层突破。

有网友帮忙总结了个太长不看版:

与过去那些“看起来完美,实则错误”的幻觉式答案不同,这一代大模型开始学会“承认自己不会”。

它标志着模型正在从胡编乱造的幻觉式回答,转向更加可靠且具有“自我认意识”的全新阶段。



三位成员还在这场对话中,分享了更多关于冲刺IMO的有趣细节。

IMO金牌模型能承认自己不知道

尽管数学家与计算机科学家一致认可IMO金牌模型的价值。

但他们常常抱怨,当模型遇到知识盲区时,它总会输出一个令人信服但错误的答案。

他们不得不耗费大量精力逐行验算,才能甄别那些幻觉陷阱。



IMO第6题让大模型全军覆没,当然,OpenAI也对其进行了大量计算。

  • 有一个由2025×2025个单位正方形组成的网格。Matilda希望在网格上放置一些矩形图块,这些图块的大小不同,但每个图块的每一条边都位于网格线上,并且每个单位正方形最多被一个图块覆盖。
  • 网格的每一行和每一列都恰好有一个未被任何瓷砖覆盖的单位正方形,求出Matilda需要放置的最少瓷砖数量。

虽然投入海量算力最终仅得到一句“我无法回答”令人有些失望,但Alex Wei表示:

  • 能看到模型避免产生幻觉是很好的。

Noam Brown也对模型的这一转变表示赞赏,“如果它不知道,它就会承认它不知道。”

这代表模型开始具备“自我意识”。

这种“自我意识”可以帮助模型在面对困难问题时,承认自己的无能为力,而不是生成一个看似合理实则错误的解决方案。

有趣的是,在Alex Wei 2024年刚加入OpenAI一周时,Noam Brown就曾问过他,团队何时能获得IMO金牌。

当时Alex Wei认为2025年不太可能实现。

但令人惊叹的是,这个三人团队仅用了两月,就完成了他们一直在追求的目标——IMO金牌。

Noam Brown还表示:

  • OpenAI有一个很棒的地方,就是研究人员有很大的自主权去做他们认为有影响力的研究。

Alex还强调,他们的团队“真正优先考虑通用技术”,而不是专门开发用于数学竞赛的系统。

OpenAI IMO金牌核心团队

OpenAI IMO核心团队仅由三名研究人员构成。



Alex Wei,本硕均就读于哈佛大学,随后在加州大学伯克利分校获得计算机科学博士学位。

Alex还曾在谷歌、微软和Meta实习,后于2024年1月加入OpenAI,现任研究科学家。他曾是FAIR团队成员,参与开发了首个用于外交游戏的人类级人工智能——CICERO。



Sheryl Hsu,毕业于斯坦福大学计算机科学专业,是斯坦福AI实验室中IRIS实验室的研究员,于2025年3月加入OpenAI。



Noam Brown,本科就读于美国罗格斯新泽西州立大学新布朗斯维克分校,随后在卡内基·梅隆大学获硕士和博士学位。他曾任职于DeepMind和Meta,于2023年6月加入OpenAI。

参考链接:
[1]https://x.com/chatgpt21/status/1950606890758476264
[2]https://www.youtube.com/watch?v=EEIPtofVe2Q

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!特朗普刚宣布:美军发起新一轮打击,多人死亡

突发!特朗普刚宣布:美军发起新一轮打击,多人死亡

大国之翼
2025-09-19 06:35:04
台湾省被日本殖民有多深?民进党高官卓荣泰仍佩戴“日据时期”徽章

台湾省被日本殖民有多深?民进党高官卓荣泰仍佩戴“日据时期”徽章

不掉线电波
2025-09-19 19:40:49
人民币汇率突破大关!9月19日,今日凌晨的四大消息持续发酵!

人民币汇率突破大关!9月19日,今日凌晨的四大消息持续发酵!

搬砖知天下事
2025-09-19 08:43:05
以色列打遍中东后,内塔尼亚胡点名警告中国,把中国当成卡塔尔?

以色列打遍中东后,内塔尼亚胡点名警告中国,把中国当成卡塔尔?

南权先生
2025-09-19 17:30:08
小米17 Pro Max真机外观公布 卢伟冰:副屏花了10亿

小米17 Pro Max真机外观公布 卢伟冰:副屏花了10亿

手机中国
2025-09-19 19:45:04
世界、美国历史将证明查理•柯克的伟大

世界、美国历史将证明查理•柯克的伟大

大国老记
2025-09-19 13:02:28
莫斯科时报报道,中国汽车制造商奇瑞因制裁决定离开俄罗斯。

莫斯科时报报道,中国汽车制造商奇瑞因制裁决定离开俄罗斯。

荆楚寰宇文枢
2025-09-19 20:05:00
找到了!陨石博主找到茂名火流星,400公斤藏在地下3米,网友炸锅

找到了!陨石博主找到茂名火流星,400公斤藏在地下3米,网友炸锅

小兰聊历史
2025-09-19 17:39:30
英超214亿决战!曼城创22年耻辱,输1-5后再战阿森纳,盼一雪前耻

英超214亿决战!曼城创22年耻辱,输1-5后再战阿森纳,盼一雪前耻

侃球熊弟
2025-09-19 23:32:14
反转!氢氟酸夺命后续:家属撒谎事发非散步,更多内幕曝光

反转!氢氟酸夺命后续:家属撒谎事发非散步,更多内幕曝光

以茶带书
2025-09-19 13:02:43
朱孔军任武汉大学党委书记

朱孔军任武汉大学党委书记

界面新闻
2025-09-19 15:53:50
特朗普:普京“真的让我很失望”

特朗普:普京“真的让我很失望”

参考消息
2025-09-19 19:48:58
判罚农妇10万元的法官于焕琴,曾荣获“齐鲁最美法官”等一串荣誉

判罚农妇10万元的法官于焕琴,曾荣获“齐鲁最美法官”等一串荣誉

徐雪芬札记
2025-09-19 11:08:59
大瓜!向佐被曝出轨澳门coco姐,女方男友猛料频出还扯出欠债丑闻

大瓜!向佐被曝出轨澳门coco姐,女方男友猛料频出还扯出欠债丑闻

娱乐小板报
2025-09-18 16:48:23
凡有女大佐,必然是烂片,《731》也不例外

凡有女大佐,必然是烂片,《731》也不例外

熊太行
2025-09-19 12:21:02
谢娜体面分手:爱过,但尽力了

谢娜体面分手:爱过,但尽力了

In风尚
2025-09-19 19:32:09
iPhone 17系列发售首日,记者在上海实探“最大旗舰店”:有人凌晨2点从常州坐车来排队取货

iPhone 17系列发售首日,记者在上海实探“最大旗舰店”:有人凌晨2点从常州坐车来排队取货

极目新闻
2025-09-19 09:12:05
美国把话带到北京,特朗普心里清楚,中美不能发生冲突!

美国把话带到北京,特朗普心里清楚,中美不能发生冲突!

科技有趣事
2025-09-19 09:26:06
2型糖尿病重大突破!3针干细胞,90天改善II型糖尿病高血糖!

2型糖尿病重大突破!3针干细胞,90天改善II型糖尿病高血糖!

宝哥精彩赛事
2025-09-19 10:26:21
59岁王志文线下活动,发福挺大肚似70岁,皱纹满布被评心脏不太好

59岁王志文线下活动,发福挺大肚似70岁,皱纹满布被评心脏不太好

小兰聊历史
2025-09-19 15:22:42
2025-09-20 03:32:49
量子位 incentive-icons
量子位
追踪人工智能动态
11353文章数 176280关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

本地
教育
亲子
时尚
旅游

本地新闻

大学生军训哪家强,广西申请“出战”!

教育要闻

外国新闻史重点背诵清单。

亲子要闻

每年一次性发放!育儿补贴新规出台

卡其裤+蓝衬衫,简单高级

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

无障碍浏览 进入关怀版