网易首页 > 网易号 > 正文 申请入驻

华尔街彻夜难眠!Gemini 3屠榜金融「最难考试」,AI砸了「金饭碗」?

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】被誉为「黄金职业通行证」的人类知识堡垒,CFA考试悄然陷落。最新的推理模型不仅轻松通过了CFA三级考试,还创造了几乎满分的成绩。

AI一分钟,人类十年功!

一觉醒来,AI推理模型已横扫特许金融分析师CFA考试。


要拿下享誉全球的CFA(特许金融分析师)证书,对于人类考生来说,这通常意味着数年的煎熬和至少1000小时的苦读。

但AI这次取得的成绩有点让人「破防」了:推理模型不仅轻松通过了三级考试,还创造了几乎满分的成绩。

具体而言,在一级考试中,Gemini 3.0 Pro创下97.6%的历史最高纪录。

二级考试中,GPT-5以94.3%的成绩领先。

在三级考试中,Gemini 2.5 Pro在选择题部分取得86.4%的最高分,而Gemini 3.0 Pro在问答题部分达到92.0%的优异成绩。

那些想去华尔街工作的毕业生,可能睡不着了。


金融界「最难考试」被AI通关

特许金融分析师(Chartered Financial Analyst,CFA)认证被公认为金融领域难度最大的资格认证之一。

全部三级考试,需要逐级通过,涵盖从基础知识到应用分析、直至复杂投资组合构建的进阶能力。


在2023年,当时最强的AI模型只能解答部分CFA试题,表现参差不齐。

当时的研究证实AI能搞定CFA一级和二级考试,但当时它们在三级考试面前却碰了壁,因为搞不定那些复杂的论述题(essay questions)。


链接:https://aclanthology.org/2024.emnlp-industry.80/

到了今年7月,AI已经能在几分钟之内通过最难的CFA考试:


来自纽约大学斯特恩商学院(NYU Stern)与AI财富管理平台GoodFin的研究人员想探究:AI是否已经具备了处理「专业金融决策所需的、高风险的分析推理」能力?

研究团队对23个大语言模型进行了「大阅兵」,测试它们处理CFA三级模拟试题中选择题和论述题的能力。

要知道,CFA三级考试的核心可是最考验功力的投资组合管理和财富规划。


CFA三级考试主题和权重

结果显示,o4-mini、Gemini 2.5 Pro和Claude Opus等前沿推理模型,在运用「思维链」(chain-of-thought)提示词技术后,均成功通关


链接:https://arxiv.org/pdf/2507.02954

「我认为毫无疑问,这项技术将在未来彻底重塑整个行业。」GoodFin的创始人兼CEO Anna Joo Fee如是说。


本月9日,最新研究表明,当前这代推理模型不仅全部通过了三级考试,某些科目甚至接近满分。


预印本链接;https://arxiv.org/abs/2512.08270

标题:Reasoning Models Ace the CFA Exams

AI的新成绩让人破防

来自哥伦比亚大学、伦斯勒理工学院和北卡罗来纳大学的研究团队,使用包含980道考题的题库对6款推理模型进行测试。

他们编制了一套涵盖CFA(特许金融分析师)全部三个等级的模拟试题,共计980道题目。

  • 一级试题集(Level I Set):包含三套试卷,总计540道多选题(Multiple Choice Questions, MCQs),每套180题。

  • 二级试题集(Level II Set):包含两套试卷,总计176道选择题(每套88题),每套试卷由22个「案例题组」(item sets)组成,每个题组包含4个问题。

  • 三级试题集(Level III Set):包含三套试卷,总计264道题目(每套88题);每套试卷采用混合形式,包含11个案例题组(共44道选择题)和11个论述型案例分析(constructed-response case studies,共44道论述题/CRQs)。

尽管正式CFA考试中论述题的具体数量和分值权重会有所变化,但这些模拟试题遵循了标准且具有代表性的结构。


(注:案例文本以蓝色标注,问题以红色呈现,选项以绿色显示,所有示例均为示意性内容而非真实考题)

  • 一级考试选择题示例:聚焦道德与职业行为准则,通过利益冲突情境考查考生对合规判断的掌握。

  • 二级考试选择题:围绕股权投资实务,测试对IPO牵头行核心职责的理解与辨析能力。

  • 三级考试论述题示例:设定财务报告分析情境,要求结合通胀环境变化,判断并说明外币报表折算方法的适用性。

  • 三级考试选择题示例:涉及私募市场估值,需计算债券市值,并综合评估违约风险与清偿顺位对投资价值的影响。

  • 三级考试论述题示例:探讨资产配置理论,比较两种资本资产定价模型(CAPM)的应用前提与估计精度,论证其适用差异。

结果显示:Gemini 3.0 Pro、Gemini 2.5 Pro、GPT-5、Grok 4、Claude Opus 4.1和DeepSeek-V3.1均依据既定标准通过了所有级别考核,部分成绩甚至接近满分。


Gemini与GPT-5双雄领跑

在一级考试(基础多选题)中,Gemini 3.0 Pro以97.6%的惊人准确率创下历史新高。GPT-5紧随其后,斩获96.1%,Gemini 2.5 Pro也拿到了95.7%的高分。即便是测试中表现「垫底」的DeepSeek-V3.1,准确率也高达90.9%。

来到侧重应用与分析(案例研究)的二级考试,GPT-5反超夺魁,准确率达94.3%。Gemini 3.0 Pro和Gemini 2.5 Pro分别以93.2%和92.6%紧随其后。

研究人员惊叹道,这些模型在此阶段的表现「近乎完美」。不过,「道德规范」(Ethics)板块依然是AI的软肋。数据显示,即便最强模型,在二级考试的道德类题目中也有17%到21%的相对错误率。

到了最复杂的三级考试(包含选择题与开放式问答),Gemini 2.5 Pro在选择题部分拔得头筹,准确率为86.4%。但在更考验生成能力的「论述题」环节,Gemini 3.0 Pro展现了统治力,得分率高达92.0%,相比前代模型的82.8%有了质的飞跃


为了对开放式问答环节进行评分,研究团队使用了o4-mini模型来实现自动化批改。

研究人员坦言,这种做法可能会引入测量误差,并产生某种「篇幅偏见」(verbosity bias),即回答越长,得分往往越高。因此,这些测试结果只能视为基于模型的估算值。

通过标准沿用了过往合格标准:

一级考试要求单科不低于 60%,总分不低于 70%;

二级考试要求单科不低于 50%,总分不低于 60%;

三级考试则要求在选择题和论述题两部分中,平均得分率至少达到 63%。

研究人员指出,测试结果表明「推理模型的专业能力已超越初级至中级金融分析师的要求,未来甚至可能达到资深分析师的水准」。

如果说此前的大语言模型已经掌握了一级和二级考试中那些「既定的规范化知识」(codified knowledge),那么最新一代模型正在习得三级考试所必需的复杂「综合研判能力」(synthesis skills)。

当然,惯常的局限性依然存在。基准测试,尤其是选择题形式,只能作为评估模型能力和潜在经济价值的参考,犹如管中窥豹。

尽管如此,短短两年间从「不及格」到「近乎满分」的巨大飞跃,足以凸显 AI 在专业领域的进化速度之快。

AI通关CFA了,然后呢?

当机器能轻松考下你引以为傲的证书,能代写你的报告,能处理你的数据,甚至很快在分析能力上都能把你甩在身后时,你该怎么办?

媒体行业创业者兼出版人Matthias Bastian认为,会考试 ≠ 能干活:

  • 考场得意,不代表职场如意。通过考试并不意味着模型能胜任金融分析师的日常琐碎工作(daily grind),比如与客户面谈、评估复杂的市场情绪,以及在信息不全的情况下做出关键决策。

  • 研究还特别提到,模型在「道德伦理」类题目上依然最吃力,因为这类问题往往需要深度的情境理解和价值判断。毕竟,考试考察的是孤立的知识点,而非在复杂多变的现实世界中灵活运用知识的能力。

  • 此外,研究人员也无法完全排除「数据污染」的可能性。虽然测试使用的是最新的付费受版权保护材料,但相关考题可能早已通过公共数据集中的改写或变体内容,渗透进了模型的训练数据中。这意味着,模型可能仅仅是「背过」了答案,而非真正通过逻辑推理得出了结果。

特许金融分析师、高盛全球投资研究部数据战略团队负责人Ingrid Tierens博士,在AI通过CFA认证考试之际,撰文表示,AI还不能替代分析师


她认为,AI通关CFA是意料之中的胜利,毕竟在金融领域之外的考试中,AI已经拿下了顶级超级,比如奥数竞赛等。

CFA考试正是AI最擅长的领域:面对界定清晰的知识体系、海量的同质化训练数据,以及全球统一、历久不变的标准化考试形式,AI理应表现出色。


其次,正如马克·吐温那句名言:「历史不会重演,但往往惊人地相似。」


AI的进步与金融业的历史轨迹如出一辙,同时也提醒我们,这种进步往往不是线性的,而是爆发式的。从纸笔到计算器,再到电脑、Excel表格、Python编程,金融业一直在拥抱技术变革。

在「价值投资之父」Benjamin Graham身上,这一历史视角得到了完美体现。


他还是CFA资格认证背后的核心推动者

早在1963年,当计算机刚刚踏入投资界之时,Graham就在《金融分析师期刊》(Financial Analysts Journal)上发表了题为《金融分析的未来》的文章,对行业前景乐观至极

AI已经势不可挡,关键在于如何「用好它」:在能创造价值的环节,在合理的安全边界(guardrails)内,充分发挥AI的威力,这将成为核心优势。把那些消在繁琐分析上的时间省下来,花更多时间让思考更具战略高度、解决更复杂的问题以及客户沟通更有深度。

最后,想靠AI「上位」彻底取代投资专家?短期内门儿都没有。

想要拿下入行的敲门砖,你得证明自己能在瞬息万变的市场中灵活运用知识,能进行批判性思考,能创新——这可比死记硬背通过CFA。

卓越的投资业绩,往往来自于捕捉那些被市场忽视的「离群点」和隐秘信息,远非考试可覆盖。

最后,重温一下Benjamin Graham在1963年那篇文章中的结语,至今读来依然振聋发聩:

无论世事如何变迁,有一点我深信不疑:未来的金融分析之路,将和过去一样,通往成功的路径绝不止一条。

参考资料:

https://the-decoder.com/reasoning-models-now-ace-all-three-cfa-exam-levels/

https://blogs.cfainstitute.org/investor/2025/10/20/ai-can-pass-the-cfa-exam-but-it-cannot-replace-analysts/

https://www.cnbc.com/2025/09/24/ai-cfa-exam-pass-minutes-study.html

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
草蜢40周年演唱会,蔡一杰首度公开病情:脑癌已扩散,但永不言弃

草蜢40周年演唱会,蔡一杰首度公开病情:脑癌已扩散,但永不言弃

动物奇奇怪怪
2026-04-27 05:10:02
中国需要这样的老师!线性代数的神,全世界想学这一课程的人,都是他的学生

中国需要这样的老师!线性代数的神,全世界想学这一课程的人,都是他的学生

爆角追踪
2026-04-26 11:57:53
把孙杨请来参加《妻子的浪漫旅行2026》的人,可真是一个天才!

把孙杨请来参加《妻子的浪漫旅行2026》的人,可真是一个天才!

八卦南风
2026-04-25 10:26:26
1959年杜聿明被特赦,老蒋得知大惊道:快让他老婆从美国回来!

1959年杜聿明被特赦,老蒋得知大惊道:快让他老婆从美国回来!

兴趣知识
2026-04-27 01:52:09
陈奕迅女儿陈康堤承认与香港网球一哥黄泽林恋爱:是家人介绍的

陈奕迅女儿陈康堤承认与香港网球一哥黄泽林恋爱:是家人介绍的

懂球帝
2026-04-25 16:34:10
25岁女孩确诊黑色素瘤仅5个月便离世,原本今年要订婚……生前曾在腹部发现“巨大的肿瘤”

25岁女孩确诊黑色素瘤仅5个月便离世,原本今年要订婚……生前曾在腹部发现“巨大的肿瘤”

都市快报橙柿互动
2026-04-26 19:45:19
突破极限!人类马拉松首破2小时大关:31岁名将跑出1小时59分30秒

突破极限!人类马拉松首破2小时大关:31岁名将跑出1小时59分30秒

风过乡
2026-04-26 18:55:21
预计2027年建成投用!成都火车北站将在年中迎来多个建设节点

预计2027年建成投用!成都火车北站将在年中迎来多个建设节点

红星新闻
2026-04-26 19:16:28
大清算开始!央视曝光:78亿实际只有1亿,7亿农业基地变豪华会所

大清算开始!央视曝光:78亿实际只有1亿,7亿农业基地变豪华会所

蜉蝣说
2026-04-26 23:34:37
得了这8种病就能去办残疾证,每月都能领钱,很多人不知道

得了这8种病就能去办残疾证,每月都能领钱,很多人不知道

我不叫阿哏
2026-04-27 00:05:31
日本高官称168小时可全歼中国海军,但中国禁用导弹

日本高官称168小时可全歼中国海军,但中国禁用导弹

明天后天大后天
2026-03-17 15:30:37
尚界汽车法务部:北京国际车展现场有观众蓄意破坏展车内饰,造成车辆损伤,已做好取证

尚界汽车法务部:北京国际车展现场有观众蓄意破坏展车内饰,造成车辆损伤,已做好取证

都市快报橙柿互动
2026-04-25 12:33:09
怪物级表现!利物浦新援一战封神,球迷:这不就是下一个萨拉赫?

怪物级表现!利物浦新援一战封神,球迷:这不就是下一个萨拉赫?

澜归序
2026-04-27 05:37:19
丁俊晖:对球的感知能力不如以前了;希望别给赵心童太多压力

丁俊晖:对球的感知能力不如以前了;希望别给赵心童太多压力

懂球帝
2026-04-27 05:54:39
有一种痛苦叫买了“一梯一户”,以为高大上,结果入住就后悔

有一种痛苦叫买了“一梯一户”,以为高大上,结果入住就后悔

装修秀
2026-04-26 10:55:03
华山景区拆除九个“华山论剑”石,官方回应:北峰是官方景点,其余系商家修建

华山景区拆除九个“华山论剑”石,官方回应:北峰是官方景点,其余系商家修建

封面新闻
2026-04-26 18:32:08
铜梁龙血赚!申花弃将加盟后彻底爆发成中流砥柱,斯卢茨基后悔吗

铜梁龙血赚!申花弃将加盟后彻底爆发成中流砥柱,斯卢茨基后悔吗

零度眼看球
2026-04-27 07:30:14
世界首次五百强断崖差距: 日149家,美151家,中国3家,现在呢

世界首次五百强断崖差距: 日149家,美151家,中国3家,现在呢

杰丝聊古今
2026-04-26 08:48:46
人性何在?伊朗宣布服兵役的年龄低至12岁了,少年征兵引发争议

人性何在?伊朗宣布服兵役的年龄低至12岁了,少年征兵引发争议

吃瓜局
2026-04-26 14:50:58
8亿豪门最后的回光?热刺用血肉拼下一场无效胜利!保级更难了!

8亿豪门最后的回光?热刺用血肉拼下一场无效胜利!保级更难了!

落夜足球
2026-04-26 15:43:55
2026-04-27 07:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15071文章数 66810关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

高市用双语表态:得知特朗普总统安然无恙 我如释重负

头条要闻

高市用双语表态:得知特朗普总统安然无恙 我如释重负

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

健康
教育
旅游
艺术
公开课

干细胞如何让烧烫伤皮肤"再生"?

教育要闻

小学找规律,6,9,13,16,(),25,难住老师

旅游要闻

缙云·巫山时序丨刘红梅:幽峡奇峰

艺术要闻

72米舞台被拆!华晨宇这次玩文旅,翻车了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版