网易首页 > 网易号 > 正文 申请入驻

AI“推理”模型兴起,基准测试成本飙升

0
分享至

IT之家 4 月 13 日消息,随着人工智能(AI)技术的不断发展,所谓的“推理”AI 模型成为了研究热点。这些模型能够像人类一样逐步思考问题,在特定领域,如物理学中,被认为比非推理模型能力更强。然而,这种优势却伴随着高昂的测试成本,使得独立验证这些模型的能力变得困难重重。

据第三方 AI 测试机构“人工智能分析”(Artificial Analysis)提供的数据显示,评估 OpenAI 的 o1 推理模型在七个流行的 AI 基准测试(包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500)中的表现,需要花费 2767.05 美元(IT之家注:现汇率约合 20191 元人民币)。而评估 Anthropic 的 Claude 3.7 Sonnet 这一“混合”推理模型的成本为 1485.35 美元(现汇率约合 10839 元人民币),相比之下,测试 OpenAI 的 o3-mini-high 则只需 344.59 美元(现汇率约合 2514 元人民币)。尽管有些推理模型的测试成本相对较低,例如评估 OpenAI 的 o1-mini 只需 141.22 美元(现汇率约合 1030 元人民币),但从整体来看,推理模型的测试成本仍然比较高昂。截至目前,“人工智能分析”已经花费了约 5200 美元(现汇率约合 37945 元人民币)来评估大约十几种推理模型,这一金额接近该公司分析超过 80 种非推理模型所花费的 2400 美元的两倍。

OpenAI 在 2024 年 5 月发布的非推理 GPT-4o 模型,其评估成本仅为 108.85 美元,而 Claude 3.6 Sonnet(Claude 3.7 Sonnet 的非推理前身)的评估成本为 81.41 美元。“人工智能分析”联合创始人乔治・卡梅伦(George Cameron)向 TechCrunch 表示,随着越来越多的 AI 实验室开发推理模型,该组织计划增加其测试预算。“在‘人工智能分析’,我们每月进行数百次评估,并为此投入了相当可观的预算,”卡梅伦说,“我们预计随着模型的频繁发布,这一支出将会增加。”

“人工智能分析”并非唯一面临 AI 测试成本上升的机构。AI 初创公司“通用推理”(General Reasoning)的首席执行官罗斯・泰勒(Ross Taylor)表示,他最近花费了 580 美元用大约 3700 个独特的提示词评估了 Claude 3.7 Sonnet。泰勒估计,仅对 MMLU Pro(一套旨在评估模型语言理解能力的问题集)进行一次完整的测试,成本就会超过 1800 美元。“我们正在迈向一个世界,在这个世界里,一个实验室在一项基准测试中报告 x% 的结果,而他们在其中花费了 y 数量的计算资源,但学者们的资源远远小于 y,”泰勒在 X 上最近的一篇帖子中写道,“没有人能够复制这些结果。”

那么,为什么推理模型的测试成本如此之高呢?主要原因在于它们生成了大量的 token。token 代表原始文本的片段,例如将单词“fantastic”拆分为音节“fan”、“tas”和“tic”。据“人工智能分析”称,在该公司的基准测试中,OpenAI 的 o1 生成了超过 4400 万个 token,大约是 GPT-4o 生成量的八倍。大多数 AI 公司都是按 token 收费的,因此成本很容易就会累积起来。

此外,现代基准测试通常会从模型中引出大量 token,因为它们包含涉及复杂、多步骤任务的问题。Epoch AI 的高级研究员让-斯坦尼斯拉斯・德内恩(Jean-Stanislas Denain)表示,这是因为今天的基准测试更加复杂,尽管每个基准测试的问题数量总体有所减少。“它们通常试图评估模型执行现实世界任务的能力,例如编写和执行代码、浏览互联网以及使用计算机,”德内恩称。德内恩还指出,最昂贵的模型随着时间的推移,每个 token 的成本也在增加。例如,Anthropic 在 2024 年 5 月发布的 Claude 3 Opus 是当时最昂贵的模型,每百万输出 token 的成本为 75 美元。而 OpenAI 今年早些时候推出的 GPT-4.5 和 o1-pro,每百万输出 token 的成本分别为 150 美元和 600 美元。

“尽管随着时间的推移,模型的性能有所提高,达到给定性能水平的成本也确实大幅下降,但如果你想在任何特定时间评估最大最好的模型,你仍然需要支付更多,”德内恩说。许多 AI 实验室,包括 OpenAI,为测试目的向基准测试组织提供免费或补贴的模型访问权限。但一些专家表示,这会影响测试结果的公正性 —— 即使没有操纵的证据,AI 实验室的参与本身就可能损害评估评分的完整性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国对中国渗透没白费,扶持的“内鬼”,终于开始在中国露头了

美国对中国渗透没白费,扶持的“内鬼”,终于开始在中国露头了

历史求知所
2025-12-01 11:30:06
建筑工人摇晃围栏喊“要出去吃饭”;知情人:限制外出吃饭要求在食堂吃;中建一局:情况已上报

建筑工人摇晃围栏喊“要出去吃饭”;知情人:限制外出吃饭要求在食堂吃;中建一局:情况已上报

大风新闻
2026-01-05 19:47:03
2026年物业新规1月1日施行!物业费、公共收益、维权全明确

2026年物业新规1月1日施行!物业费、公共收益、维权全明确

另子维爱读史
2026-01-03 21:36:56
美司令曾警告:若大陆武力收台,美军将摧毁中方火箭军和核武库!

美司令曾警告:若大陆武力收台,美军将摧毁中方火箭军和核武库!

壹知眠羊
2025-12-21 07:15:19
遭中方谴责后,马斯克星链降轨70公里!更逼近空间站,到底想干啥

遭中方谴责后,马斯克星链降轨70公里!更逼近空间站,到底想干啥

铁锤简科
2026-01-05 15:30:14
央视怒批!人民日报点名封杀!这5位目无法纪的大网红,彻底凉凉

央视怒批!人民日报点名封杀!这5位目无法纪的大网红,彻底凉凉

观察者海风
2026-01-05 23:24:01
KKV深圳卓悦中心店再被强制闭店,双方回应

KKV深圳卓悦中心店再被强制闭店,双方回应

南方都市报
2026-01-05 22:26:30
看了佘诗曼,再看陈自瑶才知:会打扮与不会打扮的女人,差距多大

看了佘诗曼,再看陈自瑶才知:会打扮与不会打扮的女人,差距多大

一娱三分地
2026-01-05 12:38:30
10500张2元人民币以成交价83.16万元拍出 有三捆内有纸条标注为“绿幽灵” 为涉腐干部名下赃物

10500张2元人民币以成交价83.16万元拍出 有三捆内有纸条标注为“绿幽灵” 为涉腐干部名下赃物

闪电新闻
2026-01-05 18:21:58
来了来了!曝可能复出!这可是火箭的第4巨头

来了来了!曝可能复出!这可是火箭的第4巨头

篮球实战宝典
2026-01-05 22:54:32
王文澜也没想到,66岁倪萍主持晚会摇头晃脑,担心的事还是发生了

王文澜也没想到,66岁倪萍主持晚会摇头晃脑,担心的事还是发生了

白面书誏
2026-01-05 17:12:41
留给大清的时间,真的不多了

留给大清的时间,真的不多了

我是历史其实挺有趣
2026-01-03 08:50:37
高危行业!短短4个月:英超6名主帅下课 最短仅执教39天

高危行业!短短4个月:英超6名主帅下课 最短仅执教39天

叶青足球世界
2026-01-05 19:50:52
从英超第二滑落至降级区:卖主力“后遗症”发作,还是赛程太难?

从英超第二滑落至降级区:卖主力“后遗症”发作,还是赛程太难?

里芃芃体育
2026-01-06 04:00:03
李在明发帖感慨:这是韩中关系最宝贵的资产

李在明发帖感慨:这是韩中关系最宝贵的资产

上观新闻
2026-01-06 06:50:05
曝至少三队追求库明加!开拓者在列:可用格兰特或霍勒迪作为筹码

曝至少三队追求库明加!开拓者在列:可用格兰特或霍勒迪作为筹码

罗说NBA
2026-01-06 07:20:12
好莱坞著名影星乔治·克鲁尼携全家入籍法国,特朗普讽刺:他根本不是什么明星!之前两人就公开“互怼”过

好莱坞著名影星乔治·克鲁尼携全家入籍法国,特朗普讽刺:他根本不是什么明星!之前两人就公开“互怼”过

极目新闻
2026-01-05 10:25:17
52岁索帅愿时隔4年回曼联救火!不在乎合同长度,曾率队获英超第2

52岁索帅愿时隔4年回曼联救火!不在乎合同长度,曾率队获英超第2

我爱英超
2026-01-06 06:53:34
太原一商场倒立骏马雕塑,因方言谐音引争议,被连夜拆除引发争议

太原一商场倒立骏马雕塑,因方言谐音引争议,被连夜拆除引发争议

奇思妙想草叶君
2026-01-05 19:42:05
“我肯定要去皇马”17岁拜仁太子暴露儿皇梦 球迷怒了:快滚+叛徒

“我肯定要去皇马”17岁拜仁太子暴露儿皇梦 球迷怒了:快滚+叛徒

风过乡
2026-01-05 11:59:00
2026-01-06 07:55:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
323020文章数 606862关注度
往期回顾 全部

科技要闻

性能涨5倍!黄仁勋CES秀肌肉 下代芯片来了

头条要闻

马杜罗在美首次出庭表示不认罪:我仍是委内瑞拉总统

头条要闻

马杜罗在美首次出庭表示不认罪:我仍是委内瑞拉总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

时尚
亲子
家居
教育
艺术

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

亲子要闻

五岁小女孩发现家里有小偷,她竟然这么做,太机智了

家居要闻

白色大理石 奢华现代

教育要闻

河北科大录取通知书没收到?3招快速查询!

艺术要闻

揭秘赵子昂:为何学书必须从羲之开始?

无障碍浏览 进入关怀版