网易首页 > 网易号 > 正文 申请入驻

Anthropic让Claude碰钱:金融代理的64%及格线

0
分享至

金融从业者最怕什么?不是市场波动,是AI把数字算错。Anthropic偏偏这时候推出了一套金融代理模板,让Claude直接介入财务流程。更刺眼的是,它的旗舰模型Opus 4.7在财务代理基准测试里只拿了64.37%——一个刚及格的分数。

这到底是技术自信,还是对金融行业的误判?


场景代入:当AI开始审你的账

想象这个画面:月底关账,你的财务系统里多了一个"同事"。它不喝咖啡、不请假,但会逐条核对总账科目,标记出"现金"和"银行存款"之间那笔对不上的差额。遇到可疑交易,它自动调取客户背景,比对PEP(政治敏感人物)名单,生成一份带风险评级和引用依据的审查报告。

这不是科幻。Anthropic新发布的金融代理模板,正在把这套流程塞进Claude。

公司官方解释,每个代理模板打包了三样东西:技能(任务指令和领域知识)、连接器(受管控的数据访问权限)、子代理(专门处理细分任务的额外Claude模型)。听起来很技术,拆开了其实就是:一个懂财务规矩的AI,能连你的数据库,还能叫"外援"帮它算复杂的东西。

但这里有个微妙的张力。金融是数字的宗教,小数点后两位都能决定生死。而AI的标志性特征恰恰是"可能包含错误"——Anthropic自己写在免责声明里的。

清单一:十个代理,覆盖财务全流程

Anthropic这次放出的代理清单,几乎扫遍了企业财务的核心场景:

• pitch builder( pitch 构建器):做融资演示材料

• meeting preparer(会议准备器):会前资料整理

• earnings reviewer(财报审阅器):分析季度业绩

• model builder(模型构建器):搭财务预测模型

• market researcher(市场研究器):行业对标分析

• valuation reviewer(估值复核器):检查DCF、可比公司法等估值逻辑

• general ledger reconciler(总账核对器):科目余额调节

• month-end closer(月末关账器):自动化结账流程

• statement auditor(报表审计器):财务报表审查

• KYC screener(客户尽职调查器):反洗钱合规审查

这十个代理可以塞进Claude Cowork(面向企业协作的版本)和Claude Code(开发者工具)当插件用,也可以作为"cookbook"——可复制代码片段——供Claude Managed Agents调用。

覆盖度很全,但全不代表能用。财务领域的特殊性在于:错误成本极高,且往往滞后暴露。一个估值模型的参数错误,可能要到交易交割后才被发现;一笔KYC漏检的洗钱交易,可能带来监管罚款和声誉崩塌。

清单二:KYC代理的"工作手册"长什么样

为了理解这些代理的实际运作,值得细看KYC screener的模板设计。这是反洗钱合规的前线岗位,也是金融监管最敏感的环节之一。

这个代理的技能文件叫kyc-rules,是一份markdown格式的"工作手册"。它告诉Claude:拿到客户开户资料后,怎么一步步执行公司的KYC/AML规则。具体指令包括:分配风险评级、核查文件完整性、引用规则条款、输出结构化结果。

输出格式是严格的JSON:

"risk_rating": "low | medium | high",

"disposition": "clear | request-docs | escalate-EDD | decline-recommend",

"missing_documents": ["..."],

"escalation_reasons": ["rule 4.2: confirmed PEP", "..."],

"rule_outcomes": [{"rule_id": "...", "outcome": "...", "evidence": "..."}]

这个设计有巧思。JSON格式意味着输出可以直接对接企业系统,不需要人工二次录入。每个判断都有rule_id和evidence字段,留痕备查——这是监管审计的硬性要求。disposition字段的四个选项(放行/补件/升级尽调/建议拒绝)覆盖了合规决策的全谱系。

但问题也藏在这里。规则4.2说"confirmed PEP",谁确认的?AI怎么确认?原文没说。模板提供了输出格式,但没解释输入数据的质量如何保证。如果客户数据库本身有误,AI只是忠实地放大错误。

清单三:技术架构的"俄罗斯套娃"

Anthropic的术语体系容易让人晕头转向。代理、子代理、技能、连接器、Claude Code、Claude Cowork……层层嵌套。

剥开来看:Claude Code本身是一个"代理化框架"(agentic harness),用Anthropic定义的控制流支撑底层模型。当Claude模型主动驱动控制流——决定用什么工具、访问什么数据——这就是代理。

子代理呢?其实就是带特定系统提示词、指定工具集和上下文的API调用。类比编程,它们像程序里的函数,处理应用的某个特定切面。

所以金融代理的三层结构是:

• 技能 = markdown工作流描述

• 连接器 = 外部服务集成

• 子代理 = 精简版Claude,专攻细分任务(比如可比公司筛选、方法论校验)

这个架构的聪明之处在于模块化。子代理可以独立迭代,不影响主代理;技能文件可以替换,适应不同公司的内部规则;连接器可以扩展,对接各种ERP、CRM、数据库。

但模块化也意味着故障点分散。一个估值审查任务可能串起市场数据子代理、财务模型子代理、合规检查子代理。任何一个环节的上下文传递出错,最终输出就会失真。

清单四:64.37%的行业领先,够吗?

原文提到一个刺眼的数字:Anthropic的Opus 4.7模型在Vals AI的Finance Agent基准测试中获得"industry leading"的64.37%。

行业领先,但刚过及格线。这不是Anthropic的谦虚,是财务AI的残酷现实。

Vals AI的Finance Agent benchmark测什么?原文没展开,但财务代理的核心能力无非几项:数字计算的准确性、多步骤推理的连贯性、监管规则的理解与执行、异常情况的识别与上报。64.37%意味着,每三个判断就有一个可能出错。

对比其他领域,这个分数更刺眼。OpenAI的模型在法律考试上能进前10%,医考也能接近及格。但财务不一样——法律有解释空间,医学有复查机制,财务错误直接折算成金钱损失。

Anthropic的应对策略是"人机协作"设计。KYC代理的输出格式里,escalate-EDD(升级增强尽调)和decline-recommend(建议拒绝)都是把决策权交还人类的出口。风险评级和规则引用帮助人类快速定位问题,而非替代人类做最终决定。

但这套逻辑有个前提:人类 reviewer 能识别AI的错误。如果AI的输出看起来专业、格式规范、引用完整,人类会不会过度信任?这是自动化领域的经典悖论:系统越可靠,人类监督越松懈;一旦出错,后果越严重。

清单五:金融代理的商业逻辑,藏在"模板"二字里

值得玩味的是Anthropic的产品形态选择:不是卖成品软件,是卖模板。

模板意味着高度定制化空间。每家银行的KYC规则不同,每个基金的估值方法论不同,每个企业的关账流程不同。Anthropic提供骨架,客户填血肉。这既规避了合规责任("最终规则是你们定的"),又降低了交付成本(不需要为每个客户重训模型)。

更深层的逻辑是抢占工作流入口。财务是企业数据的核心枢纽,连接业务、资金、监管。谁能在财务流程里扎根,谁就能向上下游延伸。Claude Cowork的定位是企业协作,金融代理是它的楔子。

但竞争对手不会坐视。微软的Copilot已经嵌入Excel和Dynamics,Salesforce的Agentforce瞄准CRM场景,专门的财务AI公司如Vic.ai、Appzen深耕垂直领域多年。Anthropic的差异化在于底层模型的能力,但64.37%的分数让这张牌打了折扣。

行动号召:三个问题测测你的准备度

如果你所在的企业正在评估财务AI,别急着 pilot。先问自己三个问题:

第一,你的数据管道有多干净?AI代理的输出质量天花板,是输入数据的质量地板。KYC代理再聪明,也纠正不了客户数据库里的错误地址。

第二,你的容错预算有多少?64.37%不是终点,是起点。在模型能力爬坡的过渡期,你愿意为多少错误买单?这个账要算清楚。

第三,你的人类监督机制有多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中年失业后找不到工作有多惨?网友说:人快废掉了!

中年失业后找不到工作有多惨?网友说:人快废掉了!

灯锦年
2026-05-06 16:11:44
国际足联也急了!原来除了中国,还有这么多国家不给世界杯买单了

国际足联也急了!原来除了中国,还有这么多国家不给世界杯买单了

阿纂看事
2026-05-06 15:55:12
56岁王菲西藏变装,黑袍绿巾眼袋深,网友:这才是真修行

56岁王菲西藏变装,黑袍绿巾眼袋深,网友:这才是真修行

陈意小可爱
2026-05-06 12:33:48
注意!超800万膳魔师紧急召回,已致3人永久失明,多人受伤!

注意!超800万膳魔师紧急召回,已致3人永久失明,多人受伤!

华人生活网
2026-05-06 03:52:28
在迪拜工作华人感慨:别信媒体吹牛,迪拜就相当于我国二线城市

在迪拜工作华人感慨:别信媒体吹牛,迪拜就相当于我国二线城市

蜉蝣说
2026-05-06 15:25:25
金建希股价操纵案法官身亡现场发现遗书

金建希股价操纵案法官身亡现场发现遗书

新华社
2026-05-06 08:49:04
内部人士爆料:东契奇赴西班牙疗伤纯属假消息,欧洲之行另有原因

内部人士爆料:东契奇赴西班牙疗伤纯属假消息,欧洲之行另有原因

夜白侃球
2026-05-06 15:19:02
我的两个姑姑,一个用200万存款周游世界,一个用200万给儿子买了房,10年后,一个住在顶级疗养院,一个住在地下室

我的两个姑姑,一个用200万存款周游世界,一个用200万给儿子买了房,10年后,一个住在顶级疗养院,一个住在地下室

黎兜兜
2026-05-06 14:35:02
伊朗要变天了!5月5日,据伊朗国际电视台的消息称

伊朗要变天了!5月5日,据伊朗国际电视台的消息称

叶葉夜
2026-05-06 14:01:28
暴雨!雷暴大风!多地累计降温8~12℃!新一轮降雨来袭,注意防范→

暴雨!雷暴大风!多地累计降温8~12℃!新一轮降雨来袭,注意防范→

环球网资讯
2026-05-06 14:49:53
五一长假已结束,全民狂欢,出现四个“反常现象”,与往年大不同

五一长假已结束,全民狂欢,出现四个“反常现象”,与往年大不同

猫叔东山再起
2026-05-06 08:40:08
酒局持续4小时,从下厨招待到拿刀拼命,妻子到底经历了什么

酒局持续4小时,从下厨招待到拿刀拼命,妻子到底经历了什么

笑谈历史阿晡
2026-05-04 12:02:08
哈佛提醒:防肌肉流失别只补蛋白!这6种营养才是关键

哈佛提醒:防肌肉流失别只补蛋白!这6种营养才是关键

橘子约定
2026-05-05 20:49:53
监管突查!鸿蒙大牛股20CM跌停,5.9万股民集体被闷杀

监管突查!鸿蒙大牛股20CM跌停,5.9万股民集体被闷杀

慧眼看世界哈哈
2026-05-06 12:39:50
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
斯诺克世锦赛落幕!丁俊晖边缘,2人身价暴涨,1人下桌,唯他被骂

斯诺克世锦赛落幕!丁俊晖边缘,2人身价暴涨,1人下桌,唯他被骂

好贤观史记
2026-05-06 09:59:33
75岁姜昆近况:与46岁单身爱女相依为命,日子过得让人羡慕

75岁姜昆近况:与46岁单身爱女相依为命,日子过得让人羡慕

娱说瑜悦
2026-04-04 15:38:01
日经225指数期货一度升至61440点,创下历史新高

日经225指数期货一度升至61440点,创下历史新高

每日经济新闻
2026-05-06 08:56:04
伊朗外长阿拉格齐身穿休闲装抵达北京,开启访问行程

伊朗外长阿拉格齐身穿休闲装抵达北京,开启访问行程

鲁中晨报
2026-05-06 10:10:13
关注中美高层互动,民进党当局忧虑自身上“菜单”

关注中美高层互动,民进党当局忧虑自身上“菜单”

京彩台湾
2026-05-06 09:04:21
2026-05-06 17:43:00
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
2129文章数 18关注度
往期回顾 全部

财经要闻

最新GDP!全国30强城市,又变了

头条要闻

中国发布阻断禁令后鲁比奥声称将二次制裁 外交部回应

头条要闻

中国发布阻断禁令后鲁比奥声称将二次制裁 外交部回应

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

艺术
本地
家居
健康
军事航空

艺术要闻

震撼!康斯坦丁摄影作品里的性感曲线让人惊艳!

本地新闻

用青花瓷的方式,打开西溪湿地

家居要闻

大胆前卫 时尚大宅

干细胞治烧烫伤面临这些“瓶颈”

军事要闻

实施不到48小时 特朗普紧急喊停"霍尔木兹自由计划"

无障碍浏览 进入关怀版