网易首页 > 网易号 > 正文 申请入驻

倒反天罡,AI开始给人类打分!Claude评分标准曝光: 优秀人类得7.5分

0
分享至


新智元报道


【新智元导读】反转了反转了,过去我们给AI跑分,今天Claude开始反手给人类打分!它会通过11个指标来分析你和它的历史对话,判断你使用AI的水平高低。在AI眼里,你是高手还是萌新?

倒反天罡,AI开始给人类打分了!

搞出这个功能的,还是那个抽象的Anthropic。


这个功能虽然目前还在灰度测试阶段,但已经在海外AI圈迅速传开了。

AI是怎么给人类打分的?

想象一下这个画面:你打开Claude的设置面板,点开一个名为「AI Fluency」的专属屏幕,点击生成报告。

几秒钟后,一份关于你AI使用习惯的「体检报告」就赫然出现在眼前。

它不仅扫描了你在Chat(日常对话)、Cowork(协作空间)甚至硬核的Claude Code里的每一次交互,还会根据一套严密的标准进行打分(满分11分)。

已经有手速快的网友分享出AI给自己的评价了——7.5分。



更可怕的是,AI的评价可谓是一针见血,直戳痛点。

这位网友分享了Claude给他的弱点分析:「比如,报告指出我极其频繁地使用各种Connector,但只要话题涉及体育数据、食谱,甚至地图和地理位置,我就表现得一无所知。」


甚至,Claude不仅指出了他的问题,还直接上手给出了指导:比如「主动通过情境激发AI的敏锐辨别力」,以及「在让我写第一稿之前,试着对我说——给我一个简洁的要点摘要,不要任何前言废话。这样能让你的初稿干净得多」。

太恐怖了,这哪里是冷冰冰的软件,简直是一个拿着教鞭、对你恨铁不成钢的赛博导师。


还有网友激动地发帖寻找共鸣:「我也看到了!我特地跑来论坛确认我没疯!我生成了报告,结果回到笔记本电脑前,服务器报了个错,功能就消失了!」


现在,这个惊鸿一瞥的泄露,把人们的胃口吊到了极点。

大家都在好奇:这11项打分标准,到底是什么?

近万份匿名对话揭秘,何为「AI流利度」?

要搞清楚这11项标准,我们必须把时间线拉回到Anthropic发布的那份极具前瞻性的硬核研究——《AI流利度指数报告》。


在过去,我们总以为「会写复杂的提示词」就是懂AI。但Anthropic认为,这种观念太狭隘了。随着模型越来越聪明,死记硬背提示词模板已经过时了。

真正的高手,掌握的是一种被称为「AI流利度」的软技能。就像你熟练掌握一门外语一样,流利度意味着你能自然、高效、无缝地与AI协作。

为了量化这种玄学,Anthropic联合学术界的Rick Dakan和Joseph Feller教授,提出了著名的「4D AI流利度框架」。


研究团队动用了强大的隐私保护分析工具(全程无人工干预,用Claude 4负责行为分类,Claude 3.5 Haiku负责语言检测),在一个疯狂的星期里,对9830段真实的、多轮拉扯的匿名人类对话进行了深度扫描。

他们惊讶地发现:这世上的AI用户,差距比人和狗都大。

在24项衡量人机协作的终极标准中,有13项发生在屏幕之外(比如你是否对老板隐瞒了工作是AI做的,你是否考虑了AI生成内容的伦理后果等),而剩下的11项,则是可以在聊天框里直接观测到的绝对指标。


每种 AI 流畅度行为指标在 9,830 次 Claude.ai 对话中的流行率,按能力从最常见到最不常见排序,并按能力颜色编码

这11项指标,就是如今内置在Claude里的「评分卡」的底层逻辑!

它们主要围绕三个大维度展开:描述、委托和辨别。


11面「照妖镜」,你在哪一步现了原形?

准备好接受审视了吗?让我们逐一拆解这11项核心行为指标。


维度一:描述——你真的知道自己想要什么吗?

很多人的对话框是这样的:「帮我写个周报」、「写一个贪吃蛇代码」。

在Claude眼里,这种指令的流利度几乎为零。真正的高手会在「设定目标」和「构建对话」上花心思。

1.明确目标

你是否向AI解释了你做这件事的最终目的?

低分玩家:「帮我润色这段英文。」

高分玩家:「我要给硅谷的一家风投机构发Cold Email争取融资,请帮我润色这段英文,确保语气自信但不过分傲慢。」

2.指定格式

你是否清晰界定了输出的样子?

高分玩家懂得使用:「请用Markdown表格输出」、「请以3个小标题+每段不超过50字的要点格式呈现」。

3.提供示例

Few-shot永远是王者。

你是否在让AI干活前,先喂给它一个你认可的范例?「请模仿以下这篇爆款文章的口吻来写……」

4.补充上下文

AI不是你肚子里的蛔虫。

你是否提供了必要的背景信息?比如你的行业背景、目标受众特征、甚至是之前踩过的坑。

维度二:委托——把AI当合伙人,而不是自动售货机

在Anthropic的报告中有一个惊人的发现:最常见的AI流利度表现是「增强型」的。

这意味着人们把AI当成思维的火花碰撞机,而不是直接把活儿全部扔给AI。这类对话所展现的流利度,是那种简短一来一回对话的两倍多!

5.迭代与精炼——最强预测因子!

这是整份报告中最最最重要的一个指标!高达85.7%的高质量对话中包含这个行为。

什么叫迭代?就是不要接受AI的第一次回答!

低分玩家:看到AI写得烂,骂一句智障,然后开启一个新对话。

高分玩家:「你第一点的方向对了,但第二点太学术了。请保留第一点,把第二点换成更接地气的生活案例,然后再试一次。」

6.任务拆解

你是否试图让AI一次性写出一本10万字的小说?

流利度高的用户懂得把庞大的目标拆解:「我们先讨论一下大纲;好的,现在基于大纲写第一章的前半部分……」

7.探讨方法

在动手之前,你有没有问过AI:「你觉得解决这个问题,最好的流程是什么?」

让AI先输出它的思考路径,你再进行修正。

维度三:辨别——不要被AI的花言巧语骗了

随着大模型越来越聪明,它们的幻觉也编造得越来越逼真。辨别力,是你在这个时代保命的底线。

8.质疑推理

当AI给出一个反直觉的结论或复杂的代码时,你有没有追问一句:「你得出这个结论的逻辑是什么?」、「请逐行解释这段代码为什么这样写?」

9.事实核查

你是否要求AI为其提供的数据给出引用,或者通过提问来验证其准确性?

10.识别缺失的上下文

当AI给出的方案看似完美但脱离实际时,你能否敏锐指出:「你刚才的分析忽略了我们公司目前预算只有1万块钱这个事实,请重新评估。」

11.评估结果

明确地对AI的产出进行评价:「你这次使用的比喻非常精准,但结尾的情感升华还不够,我们需要调整结尾。」

最可怕的洞察:精美包装下的思考降级

在这份数万字的报告中,如果说有什么发现让人细思极恐,那绝对是关于「Artifact Paradox」的发现。


在涉及artifacts的对话中(样本量为1,209),相比无artifacts的对话(样本量为8,621),行为指标的普遍性呈现出以下特征:描述行为和委派行为有所增加,而所有三种辨识行为均有所减少

我们都知道,Claude最杀手级的功能就是Artifacts(可以随时生成网页、代码、流程图、互动界面的可视化窗口)。在包含这类高级产出的对话中(占样本的12.3%),人类与AI的协作方式发生了剧烈的突变。

乍一看,人类似乎变得更专业了:明确目标的比例暴增14.7%;指定格式的比例暴增14.5%;提供示例的比例暴增13.4%。

在工作开始前,人类像个精明的项目经理,把一切安排得明明白白。

但是!一旦AI生成了那个看起来精美绝伦、运行丝滑的Artifact成果,人类的脑子就集体罢工了!


数据冷酷地揭示了这一点:在产出这种精美成果的对话中,人类的批判性审查能力出现了断崖式下跌。

- 识别缺失上下文的概率下降5.2%

- 核查事实的概率下降3.7%

- 质疑AI推理逻辑的概率下降3.1%

这是为什么?Anthropic的分析师一针见血地指出:因为看起来太像真的了!

当AI给你一段干巴巴的文字时,你会下意识地挑错;但当AI直接给你渲染出一个排版精美的PDF,或者一个点击按钮还会发光的App界面时,你潜意识里会觉得:「哇,它连这么复杂的UI都做出来了,它背后的逻辑肯定没问题。」

如果东西看起来是完成的,用户就会把它当成完成的。

但这恰恰是最危险的时刻!

Anthropic近期的经济指数报告表明,任务越复杂,大模型翻车的概率其实越高。在最需要事实核查的复杂代码和高级图表面前,人类反而放下了戒备。


想拿高分?掌握最强杀器——无尽迭代

既然知道了陷阱,那通关的秘籍是什么?

核心就是四个字:迭代精炼。


在用户进行迭代与优化的对话中(样本量为8,424),相较于未进行迭代与优化的对话(样本量为1,406),所有行为指标的普遍性均有显著提升

报告显示,在会使用「迭代」的用户对话中,平均会展现出2.67种其他的流利度行为;而不使用迭代的用户,这个数字只有可怜的1.33。

毫不夸张地说,「迭代」是衡量一个人会不会用AI的绝对分水岭。

不懂迭代的人,把AI当成搜索框;懂迭代的人,把AI当成初级实习生。

高能预警!这是一组极其震撼的倍数对比。

那些习惯和Claude进行多轮迭代来打磨作品的人,比起不迭代的人,去质疑AI逻辑的概率,飙升了 5.6倍!去识别上下文缺失的概率,飙升了4倍!

这就是为什么同样是用Claude,有的人能用它写出拿下百万融资的商业计划书,有的人却觉得它连个请假条都写不好。

差距不在于AI,而在于你是否愿意在对话框里多聊五块钱的。

下次当你觉得AI生成的文章没有灵魂时,不要点重新生成,而是打下这段话:「你上面这版结构不错,但语气太像机器了。现在,假设你是一个有着10年经验、性格有些幽默毒舌的行业老炮,请保持原有大纲,把全文重写一遍,多用短句,并在第三段加一个自嘲的笑话。」

当你开始习惯这样对话时,你的AI流利度分数绝对会直线飙升。

从工具到技能,Anthropic在下一盘大棋

看到这里,你可能会问:Anthropic为什么要费这么大劲,去分析人类的行为,干嘛不直接卷参数、卷跑分?

这恰恰是Anthropic区别于其他AI大厂的最高明之处:他们正在重新定义AI。

通过《AI流利度报告》,他们告诉人类:AI不是一个你买来就能自动变强的装备,AI是一门需要你不断练习的语言和技能。

把研究成果变成产品中的评分卡,这是一个极其精妙的反馈闭环。而Claude的评分卡,就是你的Apple Watch。

通过这种游戏化、数据化的方式,Anthropic正在培养全世界最懂AI、素养最高的一批超级用户。

这不仅仅是为了产品留存,更是为了更安全的AI未来——因为只有具备高辨别力的人类,才不会被未来那些聪明到可怕的AI所蒙蔽。

据透露,Anthropic已经成立了Anthropic学院,推出了AI流利度系列课程,甚至开始与PayPal以及全球各大顶尖高校开展合作。

未来,不同人类使用起AI,区别将很参差。

人类,让AI给你打个分吧

如今,很多人都在焦虑:AI会不会抢走我的工作?

但真正的问题或许是:你配得上现在这么强大的AI吗?

Claude即将上线的AI流利度评分卡,就像一面照妖镜。它照出了我们在新技术面前的懒惰,也指明了通往强者的道路。

虽然目前这个功能何时全量上线、是否对免费用户开放还是个未知数,但标准已经摆在面前了。

问题来了,按照这11项指标,AI给你打多少分?

参考资料:

https://www.testingcatalog.com/anthropic-to-introduce-personal-ai-fluency-scorecard-in-claude/

https://www.anthropic.com/research/AI-fluency-index

编辑:Aeneas David

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨鹤通遭贬职后首现身,一脸哭丧精神萎靡,网友:踩了郭德纲逆鳞

杨鹤通遭贬职后首现身,一脸哭丧精神萎靡,网友:踩了郭德纲逆鳞

天天热点见闻
2026-05-30 06:48:50
外媒建议暂缓购买iPhone 18 Pro 2027款将迎20周年大更新

外媒建议暂缓购买iPhone 18 Pro 2027款将迎20周年大更新

CNMO科技
2026-05-28 15:29:35
金融危机要来?专家预测,2026到2027上半年,世界将爆发金融风暴

金融危机要来?专家预测,2026到2027上半年,世界将爆发金融风暴

洛川融媒科技
2026-05-29 17:40:06
5年2亿顶薪!湖人疯了吧!最快速度续约里夫斯

5年2亿顶薪!湖人疯了吧!最快速度续约里夫斯

篮球教学论坛
2026-05-30 14:43:44
有人正偷偷“篡改”抗战历史!他们想毁掉的,不只是30万人的记忆

有人正偷偷“篡改”抗战历史!他们想毁掉的,不只是30万人的记忆

浪子说
2026-05-30 00:05:05
立陶宛彻底急眼了!女总理当众情绪失控,对着中国撂下最狠狠话

立陶宛彻底急眼了!女总理当众情绪失控,对着中国撂下最狠狠话

安安说
2026-05-29 10:43:06
基辅将被毁灭?俄军图95战轰千里南调,专家评估:大规模轰炸开始

基辅将被毁灭?俄军图95战轰千里南调,专家评估:大规模轰炸开始

混沌录
2026-05-27 21:50:48
《主角》大结局:绕了半辈子,忆秦娥终于回头,看见老去的刘红兵

《主角》大结局:绕了半辈子,忆秦娥终于回头,看见老去的刘红兵

君笙的拂兮
2026-05-29 22:24:03
心理学:永远不要在儿女面前,随口说出这两句话,会毁掉孩子一生

心理学:永远不要在儿女面前,随口说出这两句话,会毁掉孩子一生

心理观察局
2026-05-30 07:08:20
向太不再隐瞒!曝黄晓明曾当众给她下跪,一句话揭开两人真实关系

向太不再隐瞒!曝黄晓明曾当众给她下跪,一句话揭开两人真实关系

林轻吟
2026-05-30 09:37:08
拼多多控股Temu因未能遏制非法商品销售,被欧盟处15.7亿元罚款

拼多多控股Temu因未能遏制非法商品销售,被欧盟处15.7亿元罚款

凡人学电脑
2026-05-29 22:37:39
抢7晋级即创神迹!文班亚马有望解锁NBA百年唯一成就

抢7晋级即创神迹!文班亚马有望解锁NBA百年唯一成就

田先生篮球
2026-05-30 14:32:42
枪支失火打断老农脊椎致残,22年申诉无果,儿子举刀砍向4名法官

枪支失火打断老农脊椎致残,22年申诉无果,儿子举刀砍向4名法官

易玄
2026-05-29 09:47:13
莫言:无论退休金多高、房子再大,晚年最好的活法,都不是聚会跳舞打麻将,而是这3种,很多人不知道

莫言:无论退休金多高、房子再大,晚年最好的活法,都不是聚会跳舞打麻将,而是这3种,很多人不知道

每日一首古诗词
2026-05-29 06:31:28
武契奇带着遗憾离京:几十份大单都签了,唯独少了歼-10CE

武契奇带着遗憾离京:几十份大单都签了,唯独少了歼-10CE

泠泠说史
2026-05-29 21:20:09
女婿把我从上海赶回老家,刚下车收到女儿300万转账:妈别再忍了

女婿把我从上海赶回老家,刚下车收到女儿300万转账:妈别再忍了

千秋历史
2026-05-29 20:02:26
叶檀现状:抗癌治疗见效,事业返巅峰,与跨国丈夫婚姻成迷无儿女

叶檀现状:抗癌治疗见效,事业返巅峰,与跨国丈夫婚姻成迷无儿女

以茶带书
2026-05-30 15:19:03
普京首次宣称俄乌战争接近结束!承认乌克兰更容易打击俄本土

普京首次宣称俄乌战争接近结束!承认乌克兰更容易打击俄本土

项鹏飞
2026-05-30 16:12:33
演员刘红梅去世,终年61岁!

演员刘红梅去世,终年61岁!

半岛晨报
2026-05-30 11:14:47
这很科学:89%的人幻想过同时和多人发生性行为,算精神出轨吗?

这很科学:89%的人幻想过同时和多人发生性行为,算精神出轨吗?

宇宙时空
2026-05-26 18:20:10
2026-05-30 17:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15341文章数 66893关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

普京称俄乌冲突临近收尾同日空袭基辅 媒体:并行不悖

头条要闻

普京称俄乌冲突临近收尾同日空袭基辅 媒体:并行不悖

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

向太曝黄晓明曾当众给她下跪

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

艺术
时尚
手机
本地
旅游

艺术要闻

王文生 2026风景写生新作

2026夏天最新5款发型合集,每一款都超心动!

手机要闻

REDMI K90卖爆,中屏机逆袭了?

本地新闻

用剪纸的方式,打开江苏扬州

旅游要闻

周末去哪儿?文创手账、美食音乐、萌趣宠物……浦东特色市集扎堆上新燃动“周末经济”

无障碍浏览 进入关怀版