网易首页 > 网易号 > 正文 申请入驻

GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则

0
分享至


新智元报道

编辑:LRST

【新智元导读】最新PRBench基准可以测试AI在金融和法律领域的表现。结果显示,即使是顶尖大模型在处理复杂任务时也表现不佳,尤其在涉及重大经济后果的任务中。PRBench通过模拟真实场景和多轮对话,揭示了AI在专业领域的不足,强调开发更可靠AI系统的重要性。

大模型技术日新月异,MMLU、GPQA 等学术基准的分数不断被刷新。

然而,当这些「高分模型」进入到金融、法律等利害攸关(high-stakes) 的专业领域时,它们真的能胜任吗?

现实应用中存在两大难题

1.学术基准的视角局限现有学术基准(如MMLU)提供的视角是有限的,更侧重于有标准答案的STEM推理,而忽视了在金融、法律领域中那些开放式、无唯一答案、且具有重大经济后果的真实任务 。

2.现有专业基准的局限目前行业内的专业基准大多「要么私有、要么规模太小」 ,且往往缺乏可解释、可复现的评估标准。

为突破这一瓶颈,Scale AI团队重磅推出了专业推理基准(Professional Reasoning Bench, PRBench),一个针对金融和法律领域的现实、开放且有挑战性的基准 。


论文链接:https://scale.com/research/prbench

团队招募了182名持有JD、CFA或6年以上经验的合格专业人士,围绕他们实际客户工作中的真实需求 ,撰写了1100个专家级任务,任务覆盖范围极广,涵盖全球114个国家和47个美国司法管辖区

PRBench的核心在于其19,356条专家评估准则 (rubrics),使其成为法律和金融领域规模最大的、公开的、基于准则的基准。



那么,顶尖大模型的表现如何?

在代表最具挑战性案例的「困难子集」 (Hard subset)上 ,表现最好的模型(GPT-5 Pro/GPT-5)在金融和法律上的得分也仅为0.39和0.37

这揭示了一个核心差距:尽管AI正被用于辅助「利害攸关」的决策,但模型的常见失败模式,例如 「判断不准确」、「过程缺乏透明度」 和 「推理不完整」 , 使其在处理这些具有重大经济后果的任务时,显得并不可靠。



直指「经济路径」,拷问真实决策力

PRBench不再满足于评估「答案是否正确」,而是独创了「经济路径」(Economic Pathway)分析维度,旨在评估模型处理那些「能直接导致真实经济后果」(如降低风险、创造价值)的决策任务的能力 。

例如,在金融领域价值创造 (Value Creation)、风险管理与韧性 (Risk& Resilience)

在法律领域规避处罚与赔偿 (Penalty and Damages Avoidance)、合同风险配置 (Contractual Risk Allocation)

分析发现,这些「经济后果」越重大的任务,模型失败的风险就越高 ,这也正是PRBench所要拷问的核心能力。



模拟真实场景,30%的多轮对话

与许多「一问一答」的基准不同,PRBench中约30%的任务是多轮对话

这模拟了专业人士(如律师或金融分析师)的真实工作流:他们不会一步到位,而是通过「迭代式提问」来「逐步建立上下文或做出澄清」 。

例如,在图12的金融任务中 :

  1. 用户(第1轮):提出了一个非常复杂的宏观场景:「如果我们遇到150个基点的主权蔓延冲击...如何...避免强制出售资产的情况下,维持流动性覆盖率?」

  2. 模型(第1轮):给出了一个高层次的框架性回答,分析了冲击的影响 。

  3. 用户(第2轮)基于模型的回答进行「向后推导」和「追问」:「现在从我们流动性比例失败的点倒推回来...你会设置什么早期预警触发器?以及你会采取什么确切的步骤...?」 。

这种设计迫使模型不仅要懂知识,还必须能像真实的专家那样,在复杂的多轮对话流中逐步建立并深入理解上下文,进而施展严谨的深度推理能力。

结语

PRBench的发布,为「利害攸关」的专业AI应用提供了一个急需的、透明且可靠的评估框架。

它揭示了一个明确的事实:尽管大模型在通用能力上进步神速 ,但在真正辅助现实世界决策,尤其是金融和法律等专业领域,它们还远未达到可靠的标准。

通过开源这一规模最大的Rubric基准 ,团队希望能推动研究界共同努力,开发出更透明、更可靠、真正具有经济价值的AI系统。

参考资料:

https://scale.com/research/prbench

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
死亡之瞳感染全队!41岁勒布朗19+13+8创六纪录 经受住单核考验

死亡之瞳感染全队!41岁勒布朗19+13+8创六纪录 经受住单核考验

颜小白的篮球梦
2026-04-19 11:21:33
新华社点名曝光:拼多多暴力抗法细节!

新华社点名曝光:拼多多暴力抗法细节!

仕道
2026-04-18 20:55:32
刚刚美国爆出惊天真相!太丢人了,中东战争真打不下去了!

刚刚美国爆出惊天真相!太丢人了,中东战争真打不下去了!

一个坏土豆
2026-04-18 19:22:14
G1火箭98-107不敌湖人 球员评价:伊森优秀,史密斯及格,7人低迷

G1火箭98-107不敌湖人 球员评价:伊森优秀,史密斯及格,7人低迷

篮球资讯达人
2026-04-19 11:27:07
火箭没杜兰特真不行!多出手27次仍输球,无牵制点后没一个能进的

火箭没杜兰特真不行!多出手27次仍输球,无牵制点后没一个能进的

篮球资讯达人
2026-04-19 11:52:39
37岁福原爱宣布三胎出生:母子健康平安,产后照曝光,前夫已祝福

37岁福原爱宣布三胎出生:母子健康平安,产后照曝光,前夫已祝福

开开森森
2026-04-19 07:41:03
人形机器人半马前三均打破人类世界纪录,工程师:不意外,很激动

人形机器人半马前三均打破人类世界纪录,工程师:不意外,很激动

新京报
2026-04-19 12:25:11
明知道佩泽希齐扬和阿拉格齐“有问题”,革命卫队为何不拿下他们

明知道佩泽希齐扬和阿拉格齐“有问题”,革命卫队为何不拿下他们

民间胡扯老哥
2026-04-19 07:27:18
日本人破防了:DNA检测日本祖先被证实,日本人不是徐福后代

日本人破防了:DNA检测日本祖先被证实,日本人不是徐福后代

掠影后有感
2026-04-19 10:16:27
央视再三提醒,绑银行卡的手机,务必开启这两项功能

央视再三提醒,绑银行卡的手机,务必开启这两项功能

另子维爱读史
2026-04-18 22:46:08
狂降16℃!中雨大雨马上到武汉,还有8级大风……紧急提醒:及时关窗

狂降16℃!中雨大雨马上到武汉,还有8级大风……紧急提醒:及时关窗

极目新闻
2026-04-19 14:06:31
中国智慧!张雪机车一脚压线把名次压赚了 车手:犯规但拿到13分

中国智慧!张雪机车一脚压线把名次压赚了 车手:犯规但拿到13分

念洲
2026-04-19 07:39:14
沈腾携妻子参加聚会,王琦穿新中式又白又美,两人私下穿搭反差大

沈腾携妻子参加聚会,王琦穿新中式又白又美,两人私下穿搭反差大

古希腊掌管松饼的神
2026-04-18 13:08:33
在气质面前,年轻真的不值一提。

在气质面前,年轻真的不值一提。

小椰的奶奶
2026-04-19 01:52:39
央视揭露:美国1年投1300万美元在中国搞“渗透”,俄罗斯、伊朗、古巴也是重点目标;细节曝光

央视揭露:美国1年投1300万美元在中国搞“渗透”,俄罗斯、伊朗、古巴也是重点目标;细节曝光

极目新闻
2026-04-19 11:39:23
远嫁中国8年回伊朗娘家,突然发现自己已经成为了当地富婆!

远嫁中国8年回伊朗娘家,突然发现自己已经成为了当地富婆!

老特有话说
2026-04-17 17:10:53
詹姆斯:我妈能看到她儿子和孙子并肩打季后赛,这也太疯狂了

詹姆斯:我妈能看到她儿子和孙子并肩打季后赛,这也太疯狂了

懂球帝
2026-04-19 12:31:08
林徽因落选的国徽方案,网友看后感叹:审美确实厉害,但真不合适

林徽因落选的国徽方案,网友看后感叹:审美确实厉害,但真不合适

浩渺青史
2026-04-17 13:55:15
福建一车辆逆行撞人,致2死1伤

福建一车辆逆行撞人,致2死1伤

界面新闻
2026-04-19 13:53:08
认罪刚一天!许家印长子每月4100万生活费,家族资产黑幕全揭开

认罪刚一天!许家印长子每月4100万生活费,家族资产黑幕全揭开

坠入二次元的海洋
2026-04-18 21:04:40
2026-04-19 14:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15008文章数 66787关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

房产
时尚
数码
健康
公开课

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

选对发型,真的能少走很多变美弯路

数码要闻

小米REDMI Buds 8预热:11mm高性能动圈单元,单耳轻至5g

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版