网易首页 > 网易号 > 正文 申请入驻

Anthropic内部95%业务分析交给Claude,秘诀竟然不在更强模型

0
分享至


新智元报道


【新智元导读】都以为让AI查数据省事,结果它答得漂亮你却不敢信。Anthropic最近说这事有解了,靠的是一套和代码无关的「笨功夫」。

让AI查数据,它答得头头是道,你却不敢信。

刚刚,这个让无数搞AI数据分析的人最头疼的事,Anthropic给出了自己的解法,还在官方博客甩出两个95%的数字:

公司内部95%的业务分析查询,已由Claude自动完成;

整体准确率约95%。


https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude?utm_source=chatgpt.com

这篇博客直指AI数据查询的核心痛点:答案看着对,却不敢轻易相信,不知哪里可能埋了雷。

Anthropic官方还为这种情况起了个名,叫「虚假的精确感」(false sense of precision):

把Claude直接接上数据仓库放手让它跑,它可能会回复你一个格式漂亮、语气笃定,却悄悄用错了表的答案。

这篇博客的作者来自Anthropic数据科学与数据工程团队,把重复机械的取数活交给Claude后,他们腾出手,去做因果建模、预测、机器学习等事情。

他们在博客中提到的最反常识的一个观点就是:让模型准确查数,最难的根本不在写SQL。

结构化查询语言(SQL)就是跟数据库要数据用的语言,过去会写它,是数据分析的一道门槛。

可对今天的大模型来说,把人话翻成SQL早已不是主要瓶颈,真正难的是在写SQL之前那一步。

三类常见错误

数据本身是一笔「糊涂账」

Anthropic认为数据分析,难就难在:数据本身是一笔「糊涂账」。

同一个问题,常常能对上好几份长得差不多的数据,到底该用哪一份,说不清。

AI真正要做对的,是从这一堆数据中挑出你要找的那份。这一步搞对了,后面写SQL把数取出来,几乎是顺理成章的事。

Anthropic将模型分析数据出错的主要原因,归为如下三类。


分析类AI的真正难点,是把用户问题映射到正确且最新的数据实体。

第一类,概念和实体对不上。

一个数据模型里有几百个看着都能用的字段,背后可能藏着上百万个。你问「有多少活跃用户」,什么动作算活跃?算不算欺诈账号?回溯窗口取7天还是30天?模型在这堆近义选项里,挑不出对的那个。

第二类,数据过时。

数据源、业务定义、表结构天天在变。模型脑子里的知识慢慢「生锈」,开始返回「细微处出错」的答案。这种错最难发现,看着全对,其实早就不对了。

第三类,检索失败。

信息其实就躺在模型里,标注也完整。可搜索空间太大,它压根没翻到。

把它和写代码对比,差别一下就清楚了。写代码是开放题,文档和单元测试天然挡着幻觉。数据分析往往只有一个正确答案、一个正确来源,而且没有任何确定性的办法证明它对。

所以Anthropic的结论是:分析的准确率,是上下文和验证的问题,并非模型会不会写代码的问题。

从21%到95%

Anthropic在中间做了什么

为了解决这三类错误,Anthropic搭了一套东西,起名叫智能体分析栈(agentic analytics stack),一共四层,每层专治一类问题。


Anthropic智能体分析栈结构图:数据基础层、事实来源、技能、验证四层各司其职。

第一层,数据基础层(data foundations):数据仓库本身,包括数据模型、转换、测试、表,以及描述它们的元数据。核心动作是把同一个概念收敛到唯一一张权威表,专治「概念-实体歧义」,同时也构建了预防数据口径过时的第一道工程防线。


Anthropic强调,维度建模等传统数据工程手艺,在AI时代同样关键。

第二层,事实来源(sources of truth):模型查数时参照的几个权威来源,按可信度从高到低是:语义层>血缘与转换图>查询语料>业务上下文。它的作用就是把用户嘴里模糊的问法,翻译成系统里唯一正确、有人维护的数据口径。

前两层合起来,专门解决「概念对不上」的痛点。

第三层,技能(Skills):把资深分析师的查询流程固化成可复用的模块,主治「检索失败」,保证模型可靠地找到、并用对那个答案。

第四层,验证(validation):离线评测、消融实验、在线验证,再加上维护流程,查出三类错里还有哪一类在漏,也是对抗「数据过时」的主要方式。

在搭这几层的过程里,Anthropic还撞见了两个反直觉的结果。

一个是偷懒的代价。

他们试过让大模型自动从原始表生成指标定义,结果生成的定义把想消除的歧义又原样编码了回去,在评测里直接成了负分。最后只能改回老办法:Claude起草文档,定义由人来拍板。

另一个更出乎意料。把几千条历史SQL直接喂给模型检索,准确率只提升了不到1个百分点。

这四层里,Anthropic披露的最大准确率跃迁来自Skills。

事实来源是声明式知识,告诉模型每个指标是什么意思;Skills是程序性知识,告诉它先查哪、按什么顺序查、一份合格分析长什么样。

形态上,Skills就是一个装着SKILL.md和说明、脚本、资源的文件夹,Claude按需读取。这个机制在Anthropic官方文档和GitHub仓库中都能交叉印证。

效果有多惊人?


根据Anthropic内部披露数字,没有Skills,Claude在内部评测里的准确率不超过21%;加上Skills之后,稳定冲到95%以上,部分领域接近99%。

从21%到95%,差的不是更强的模型,是这套结构。

95%的数字背后

这套东西「会腐烂」

但95%的准确率,并没有保持太久。

Anthropic发现,这套系统会过期:他们眼睁睁看着离线准确率,一个月内从约95%掉到约65%。

背后原因是,数据模型每天都在变,描述它的Skill文档没人管,因此几周后它就开始说错话。

于是Anthropic团队就把维护当成正经工程来做:Skill文档和数据模型塞进同一个代码仓库,改模型的那个代码合并请求(PR),顺手把对应文档也改了。现在约90%的数据模型改动,都带着一处Skill更新一起提交。

他们还做过一个负面实验。

给智能体开了全文检索(grep)权限,让它去翻历史SQL文件,还在运行记录里确认它确实一条条读了。结果准确率上下波动不到1个点。更要命的是,答错的那些题里,约80%的正确答案,其实就躺在它刚读过的语料里。它看见了,还是没用上。

那一刻Anthropic想明白了:真正的瓶颈是结构,不是拿不拿得到资料。这个判断,直接改写了他们之后几个月的路线图。

找对结构,能把准确率顶到一个高度。可最后那几个百分点,得拿真金白银去换。

比如,加一道对抗式审查(adversarial review),让模型反复死磕自己的假设,评测准确率能再涨6%。代价是token多烧32%,延迟高72%。

95%不是搭出来的,是养出来的。一旦松手,几周就可能塌回去。

参考资料:

https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude

编辑:元宇

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
199元!雷军推荐米家手持风扇:100档无极调速 续航40小时

199元!雷军推荐米家手持风扇:100档无极调速 续航40小时

快科技
2026-06-04 17:06:34
万闻华任江苏省文化和旅游厅党组书记

万闻华任江苏省文化和旅游厅党组书记

中国经济网
2026-06-04 09:44:54
瑞银:A股科技股拥挤程度远未达到历史峰值

瑞银:A股科技股拥挤程度远未达到历史峰值

华尔街见闻官方
2026-06-04 18:06:21
奚梦瑶父亲凭仪态火出圈:178超模被衬成小鸟依人?她爸啥来头

奚梦瑶父亲凭仪态火出圈:178超模被衬成小鸟依人?她爸啥来头

新金牌娱乐观察家
2026-06-04 10:43:53
“NIKE现在都没人穿了吗?”原价899元,几个月后变成429元;奥特莱斯的货架上,堆积如山……中国消费者抛弃耐克的速度,比想象中更快

“NIKE现在都没人穿了吗?”原价899元,几个月后变成429元;奥特莱斯的货架上,堆积如山……中国消费者抛弃耐克的速度,比想象中更快

都市快报橙柿互动
2026-06-04 10:35:35
中方回应日遗化武意外:两名日方人员及时救治后回国

中方回应日遗化武意外:两名日方人员及时救治后回国

界面新闻
2026-06-04 17:44:35
法国特种兵突袭11万吨俄罗斯油轮,不到24小时,普京政府准时断供

法国特种兵突袭11万吨俄罗斯油轮,不到24小时,普京政府准时断供

近史博览
2026-06-04 04:18:59
伊朗最高领袖,罕见“亮相”了

伊朗最高领袖,罕见“亮相”了

中国新闻周刊
2026-06-04 15:49:02
曝4大瓜!被抓,王祖蓝耍大牌,情妇索赔1亿,张杰令人意外

曝4大瓜!被抓,王祖蓝耍大牌,情妇索赔1亿,张杰令人意外

林轻吟
2026-06-04 07:24:45
热身赛:斯科特补篮准绝杀FMP逆转男篮17分 庞峥麟17分廖三宁17分

热身赛:斯科特补篮准绝杀FMP逆转男篮17分 庞峥麟17分廖三宁17分

颜小白的篮球梦
2026-06-04 21:34:48
从2026四川中烟工业录取名单,再次印证进烟草,读什么大学没关系

从2026四川中烟工业录取名单,再次印证进烟草,读什么大学没关系

升学规划赵宏
2026-06-03 13:05:45
非常任理事国选举爆冷,德国出局,菲律宾外长差点把手机摔了

非常任理事国选举爆冷,德国出局,菲律宾外长差点把手机摔了

老范谈史
2026-06-04 14:18:09
60节火车皮价值千万元玉米“不翼而飞”, 三重核验均显示已装车;法院:实际未装车

60节火车皮价值千万元玉米“不翼而飞”, 三重核验均显示已装车;法院:实际未装车

大风新闻
2026-06-04 19:45:54
央视曝光!成本一两毛卖近30元,暴利达300倍!网友:智商税

央视曝光!成本一两毛卖近30元,暴利达300倍!网友:智商税

阿纂看事
2026-06-04 16:03:51
去冰后仅半杯,消费者吐槽:“我花的是满杯的钱”;瑞幸咖啡:去冰不满杯属于正常操作

去冰后仅半杯,消费者吐槽:“我花的是满杯的钱”;瑞幸咖啡:去冰不满杯属于正常操作

蓬勃新闻
2026-06-04 18:24:15
被FMP主帅装到了!采访亲承故意给罚球布置绝杀,男篮输得太遗憾

被FMP主帅装到了!采访亲承故意给罚球布置绝杀,男篮输得太遗憾

篮球资讯达人
2026-06-04 22:07:49
震惊!网传重庆一公司要求员工个人贷款,将资金转给公司“救急”

震惊!网传重庆一公司要求员工个人贷款,将资金转给公司“救急”

火山詩话
2026-06-04 15:12:33
鲁比奥承认美国选边站队:我们向乌克兰提供武器,对俄罗斯实施制裁

鲁比奥承认美国选边站队:我们向乌克兰提供武器,对俄罗斯实施制裁

澎湃新闻
2026-06-04 19:39:00
近九成员工未签字?TP-LINK“全员转签”遭大规模抵制:社保突停、百人离职,员工称“人心散了”

近九成员工未签字?TP-LINK“全员转签”遭大规模抵制:社保突停、百人离职,员工称“人心散了”

新浪财经
2026-06-04 18:02:15
比亚迪披露人形机器人战略,未来将依托4S门店全渠道开售

比亚迪披露人形机器人战略,未来将依托4S门店全渠道开售

三言科技
2026-06-04 11:23:38
2026-06-04 22:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15385文章数 66903关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

特朗普回应"其战争权力被限制":投票赞成的人不爱国

头条要闻

特朗普回应"其战争权力被限制":投票赞成的人不爱国

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

AI公司的顶部在哪?

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

教育
房产
家居
亲子
艺术

教育要闻

Hi!同学,你好!

房产要闻

震撼!海口顶豪“素颜出境”,直接顶穿品质天花板!

家居要闻

220平对味儿家 空间情绪宅

亲子要闻

我太了解妈妈了~

艺术要闻

唐寅『梅花册』

无障碍浏览 进入关怀版