网易首页 > 网易号 > 正文 申请入驻

解道奥赛题成本5000美元?陶哲轩警告,AI下一步要规模化的更便宜

0
分享至

机器之心报道

机器之心编辑部

人工智能和数学是密不可分的。

AI 的发展离不开数学的进步,同时 AI 的进步也离不开解决数学问题的能力。

在刚结束不久的 IMO 竞赛中,谷歌的新一代 Gemini 进阶版模型成功解决了六道超高难度试题中的五道,达到了今年 IMO 的金牌水平(35/42),成为首个获得奥赛组委会官方认定为金牌的 AI 系统。

加州大学洛杉矶分校数学系终身教授,菲尔兹奖获得者,被称为「数学莫扎特」的华人数学家 陶哲轩,参加了今年度 IMO 竞赛的颁奖典礼。

他同样也对在 IMO 取得成绩的 AI 模型十分关注。

但他同样表达了一定程度的担忧,希望明年能够在更加受控的环境下对 AI 模型进行科学比较和评估。

陶教授认为:一些在标准考试条件下可能连铜牌都难以稳定获得的学生或队伍,在某些经过修改的赛制下,反而可能稳定地达到金牌水平。

因此,在没有采用统一、非参赛队自选的控制性测试方法的前提下,对于不同 AI 模型在类似 IMO 等竞赛中的表现,应当谨慎看待,避免作出过于简单化的「对等」比较。

陶教授对人工智能的发展和评估的关心是一贯的。就在刚刚,他在 mathstodon 上发表了对于人工智能发展现状的观点和对于未来的评估策略的建议。

人工智能技术现已迅速接近从定性到定量成果的转型阶段。

随着一项技术成熟,关注点往往会从定性的成就转移,例如谁第一个实现了某个目标,转向更定量的衡量标准,例如完成单个任务需要多少资源和专业知识,以及会产生多少环境影响和伤害风险。

这是一个必要的转变,以便将技术从概念验证扩展到大规模应用。

举两个例子:诸如莱特兄弟在 1903 年首次实现动力、可控、比空气重的飞行;林德伯格在 1927 年首次独自不间断跨大西洋飞行。

但真正让跨大西洋航空旅行变得低成本、安全且对发达国家中产阶级来说可以定期负担得起的,并不是这些初期的壮举,而是从上世纪 50 年代开始,长达数十年的喷气式航空技术的持续发展,以及与之配套的基础设施和后勤系统的稳步完善。这些工作虽枯燥,却至关重要。

相比之下,阿波罗计划虽曾在 1969 年成功实现了载人登月的里程碑,但代价极为高昂。与航空领域的发展不同,太空探索在成本降低方面并未取得显著进展。

如今,几乎任何一个具体的概念验证目标,只要投入足够的资源和专业团队,都有可能在未来几年内通过类似「登月计划」式的 AI 项目实现。

但真正要将这些技术大规模部署到现实世界中,关键问题已经从「能否做到」转向了「如何以更低成本、更高安全性和更强可扩展性实现」。

简而言之,就是人工智能需要「降本增效」。这与评估 AI 模型的方式密不可分。

在宣布某一目标完成时,显然有必要同步报告其所消耗的资源成本。但同样重要的是,也应报告失败案例,以更准确地评估成功率 —— 这是衡量预期成本的关键部分。

举例来说,如果某个先进的 AI 工具每次尝试解决一道奥赛级别的问题需要耗费约 1000 美元的算力资源,但成功率只有 20%,那么平均每成功解决一次问题的实际成本就是 5000 美元。如果只报告那 20% 的成功案例,就会对实际成本形成严重误导。

同理,如果这些成功案例是在有高薪专家全程监督、监控,甚至准备随时介入的前提下完成的 —— 即使最终没有触发人工干预,这部分「待命成本」也应计入整个过程的实际成本。

尽管未来的扩展规律(scaling laws)可能会有所变化,但可以预见的是,最耗费资源的 AI 系统依然会比那些廉价模型更强大。因此,在实际应用中,「轻量型」与「密集型」AI 工具各有其用武之地

以陶教授最近完成的「等式理论项目(Equational Theories Project)」为例:在总共需要证明的 2200 万条蕴涵关系中,绝大多数是通过非常简单的暴力方法完成的;剩下的很大一部分则由中等强度的自动定理证明器(ATP)解决;再往后,一部分由人类参与者解决,最后少数几个疑难问题,则依赖多个研究人员与 ATP 工具协作攻克。

尽管并未大量使用像大型语言模型这样的现代 AI,但陶教授预计未来类似的大规模项目会呈现类似的发展路径:

项目的绝大部分由「廉价」AI 完成,而「昂贵」的高级 AI 则与人类专家协同作战。

展望未来,标准化的基准测试和竞赛将变得越来越重要,特别是那些要求提前披露资源使用和方法细节的评测机制。这对于准确衡量 AI 技术的「量变」进展至关重要。

这与陶教授在 IMO 竞赛后对 AI 公司自我披露竞赛结果担忧的观点是一脉相承的。

当前依赖自我报告成果的现状,在技术发展的「质变」初期阶段尚且可以接受,但随着 AI 进入广泛落地和实际部署阶段,这种方式就必须被更透明、可对比的标准化评估所取代

陶哲轩教授的观点站在了历史的角度,但同样也有网友回望历史而对人工智能的普及暗含的风险而表示担忧。

完整内容请参阅原始推文:https://mathstodon.xyz/@tao/114910028356641733

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奇拉维特:98年我面对的是法国队,如今的法国是“非洲队”

奇拉维特:98年我面对的是法国队,如今的法国是“非洲队”

懂球帝
2026-07-04 18:28:46
一家三口新疆自驾游突遇山洪,母子被冲走失联6天,孩子刚过11岁生日 孩子父亲:只想尽快找到妻儿

一家三口新疆自驾游突遇山洪,母子被冲走失联6天,孩子刚过11岁生日 孩子父亲:只想尽快找到妻儿

红星新闻
2026-07-04 19:46:16
乌克兰或用弹道导弹袭击莫斯科,“回合制”互袭首都愈演愈烈

乌克兰或用弹道导弹袭击莫斯科,“回合制”互袭首都愈演愈烈

澎湃新闻
2026-07-03 21:24:29
4日凌晨大满贯:女单4强赛诞生,陈幸同零封对手,孙颖莎压力大

4日凌晨大满贯:女单4强赛诞生,陈幸同零封对手,孙颖莎压力大

锐评利物浦
2026-07-04 09:47:18
女生乘车离开,一网约车司机崩溃:“全是素颜霜,根本擦不掉……”

女生乘车离开,一网约车司机崩溃:“全是素颜霜,根本擦不掉……”

都市快报橙柿互动
2026-07-04 17:32:50
非洲之光!摩洛哥两次进入世界杯八强,为非洲历史第一队

非洲之光!摩洛哥两次进入世界杯八强,为非洲历史第一队

懂球帝
2026-07-05 03:08:11
中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

细说职场
2026-07-04 21:41:53
2020年佛得角废除了体育总局,然后……

2020年佛得角废除了体育总局,然后……

熊太行
2026-07-04 11:01:14
86名员工薪资花掉1285万!韩红基金会的钱,到底是怎么来的?

86名员工薪资花掉1285万!韩红基金会的钱,到底是怎么来的?

垛垛糖
2026-07-04 13:36:20
夺冠热门轰然倒下,球迷都哭了,底牌已经亮完,西班牙和法国笑了

夺冠热门轰然倒下,球迷都哭了,底牌已经亮完,西班牙和法国笑了

我就是一个说球的
2026-07-04 15:31:45
空袭惨烈!乌克兰第二大城市被炸成废墟,俄军接连拿下关键阵地!

空袭惨烈!乌克兰第二大城市被炸成废墟,俄军接连拿下关键阵地!

青青衫书生
2026-07-02 23:23:10
世界杯首例!非洲劲旅8人兴奋剂违规 检出违禁药物 FIFA拒绝置评

世界杯首例!非洲劲旅8人兴奋剂违规 检出违禁药物 FIFA拒绝置评

狍子歪解体坛
2026-07-04 11:54:56
多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

浙江之声
2026-07-04 08:13:16
佛得角门将社媒粉丝已破2000万!佛得角足协副主席:或将对阵中国男足

佛得角门将社媒粉丝已破2000万!佛得角足协副主席:或将对阵中国男足

封面新闻
2026-07-04 16:04:31
小某书在批量生产“擦边”跑步网红

小某书在批量生产“擦边”跑步网红

马拉松跑步健身
2026-07-04 20:33:50
一个小统计:民主国家在足球方面碾压非民主国家

一个小统计:民主国家在足球方面碾压非民主国家

黔有虎
2026-07-04 19:11:29
船都绕着走,“再不治理迟早出大事”

船都绕着走,“再不治理迟早出大事”

中国新闻周刊
2026-07-04 19:46:11
赛格最初创始人公开举报西安赛格:赵贵亲口说,我拿着你的钱跟你打官司,耗死你,你能搞的过我?

赛格最初创始人公开举报西安赛格:赵贵亲口说,我拿着你的钱跟你打官司,耗死你,你能搞的过我?

贴小君
2026-07-04 13:12:59
第十四届全国政协委员、国家发展改革委原党组成员、国家能源局原党组书记、局长章建华到绿能公司调研

第十四届全国政协委员、国家发展改革委原党组成员、国家能源局原党组书记、局长章建华到绿能公司调研

新浪财经
2026-07-05 03:43:01
她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

流史岁月
2026-07-03 16:00:07
2026-07-05 06:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13429文章数 142687关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

手机
本地
数码
旅游
公开课

手机要闻

iPhone Air2再次被确认:散热、双扬声器、双摄,均迎来升级!

本地新闻

国内足球之旅?这座小城给你高分答案

数码要闻

苏姿丰签名同款!极摩客EVO-X3 AI工作站全球开卖:国行版21699元起

旅游要闻

山野逐夏 乐享清凉!五莲黑虎山盛夏欢乐季火热启幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版