倒反天罡，AI开始给人类打分！Claude评分标准曝光: 优秀人类得7.5分|代码|上下文|流利度|claude

分享至

新智元报道

【新智元导读】反转了反转了，过去我们给AI跑分，今天Claude开始反手给人类打分！它会通过11个指标来分析你和它的历史对话，判断你使用AI的水平高低。在AI眼里，你是高手还是萌新？

倒反天罡，AI开始给人类打分了！

搞出这个功能的，还是那个抽象的Anthropic。

这个功能虽然目前还在灰度测试阶段，但已经在海外AI圈迅速传开了。

AI是怎么给人类打分的？

想象一下这个画面：你打开Claude的设置面板，点开一个名为「AI Fluency」的专属屏幕，点击生成报告。

几秒钟后，一份关于你AI使用习惯的「体检报告」就赫然出现在眼前。

它不仅扫描了你在Chat（日常对话）、Cowork（协作空间）甚至硬核的Claude Code里的每一次交互，还会根据一套严密的标准进行打分（满分11分）。

已经有手速快的网友分享出AI给自己的评价了——7.5分。

更可怕的是，AI的评价可谓是一针见血，直戳痛点。

这位网友分享了Claude给他的弱点分析：「比如，报告指出我极其频繁地使用各种Connector，但只要话题涉及体育数据、食谱，甚至地图和地理位置，我就表现得一无所知。」

甚至，Claude不仅指出了他的问题，还直接上手给出了指导：比如「主动通过情境激发AI的敏锐辨别力」，以及「在让我写第一稿之前，试着对我说——给我一个简洁的要点摘要，不要任何前言废话。这样能让你的初稿干净得多」。

太恐怖了，这哪里是冷冰冰的软件，简直是一个拿着教鞭、对你恨铁不成钢的赛博导师。

还有网友激动地发帖寻找共鸣：「我也看到了！我特地跑来论坛确认我没疯！我生成了报告，结果回到笔记本电脑前，服务器报了个错，功能就消失了！」

现在，这个惊鸿一瞥的泄露，把人们的胃口吊到了极点。

大家都在好奇：这11项打分标准，到底是什么？

近万份匿名对话揭秘，何为「AI流利度」？

要搞清楚这11项标准，我们必须把时间线拉回到Anthropic发布的那份极具前瞻性的硬核研究——《AI流利度指数报告》。

在过去，我们总以为「会写复杂的提示词」就是懂AI。但Anthropic认为，这种观念太狭隘了。随着模型越来越聪明，死记硬背提示词模板已经过时了。

真正的高手，掌握的是一种被称为「AI流利度」的软技能。就像你熟练掌握一门外语一样，流利度意味着你能自然、高效、无缝地与AI协作。

为了量化这种玄学，Anthropic联合学术界的Rick Dakan和Joseph Feller教授，提出了著名的「4D AI流利度框架」。

研究团队动用了强大的隐私保护分析工具（全程无人工干预，用Claude 4负责行为分类，Claude 3.5 Haiku负责语言检测），在一个疯狂的星期里，对9830段真实的、多轮拉扯的匿名人类对话进行了深度扫描。

他们惊讶地发现：这世上的AI用户，差距比人和狗都大。

在24项衡量人机协作的终极标准中，有13项发生在屏幕之外（比如你是否对老板隐瞒了工作是AI做的，你是否考虑了AI生成内容的伦理后果等），而剩下的11项，则是可以在聊天框里直接观测到的绝对指标。

每种 AI 流畅度行为指标在 9,830 次 Claude.ai 对话中的流行率，按能力从最常见到最不常见排序，并按能力颜色编码

这11项指标，就是如今内置在Claude里的「评分卡」的底层逻辑！

它们主要围绕三个大维度展开：描述、委托和辨别。

11面「照妖镜」，你在哪一步现了原形？

准备好接受审视了吗？让我们逐一拆解这11项核心行为指标。

维度一：描述——你真的知道自己想要什么吗？

很多人的对话框是这样的：「帮我写个周报」、「写一个贪吃蛇代码」。

在Claude眼里，这种指令的流利度几乎为零。真正的高手会在「设定目标」和「构建对话」上花心思。

1.明确目标

你是否向AI解释了你做这件事的最终目的？

低分玩家：「帮我润色这段英文。」

高分玩家：「我要给硅谷的一家风投机构发Cold Email争取融资，请帮我润色这段英文，确保语气自信但不过分傲慢。」

2.指定格式

你是否清晰界定了输出的样子？

高分玩家懂得使用：「请用Markdown表格输出」、「请以3个小标题+每段不超过50字的要点格式呈现」。

3.提供示例

Few-shot永远是王者。

你是否在让AI干活前，先喂给它一个你认可的范例？「请模仿以下这篇爆款文章的口吻来写……」

4.补充上下文

AI不是你肚子里的蛔虫。

你是否提供了必要的背景信息？比如你的行业背景、目标受众特征、甚至是之前踩过的坑。

维度二：委托——把AI当合伙人，而不是自动售货机

在Anthropic的报告中有一个惊人的发现：最常见的AI流利度表现是「增强型」的。

这意味着人们把AI当成思维的火花碰撞机，而不是直接把活儿全部扔给AI。这类对话所展现的流利度，是那种简短一来一回对话的两倍多！

5.迭代与精炼——最强预测因子！

这是整份报告中最最最重要的一个指标！高达85.7%的高质量对话中包含这个行为。

什么叫迭代？就是不要接受AI的第一次回答！

低分玩家：看到AI写得烂，骂一句智障，然后开启一个新对话。

高分玩家：「你第一点的方向对了，但第二点太学术了。请保留第一点，把第二点换成更接地气的生活案例，然后再试一次。」

6.任务拆解

你是否试图让AI一次性写出一本10万字的小说？

流利度高的用户懂得把庞大的目标拆解：「我们先讨论一下大纲；好的，现在基于大纲写第一章的前半部分……」

7.探讨方法

在动手之前，你有没有问过AI：「你觉得解决这个问题，最好的流程是什么？」

让AI先输出它的思考路径，你再进行修正。

维度三：辨别——不要被AI的花言巧语骗了

随着大模型越来越聪明，它们的幻觉也编造得越来越逼真。辨别力，是你在这个时代保命的底线。

8.质疑推理

当AI给出一个反直觉的结论或复杂的代码时，你有没有追问一句：「你得出这个结论的逻辑是什么？」、「请逐行解释这段代码为什么这样写？」

9.事实核查

你是否要求AI为其提供的数据给出引用，或者通过提问来验证其准确性？

10.识别缺失的上下文

当AI给出的方案看似完美但脱离实际时，你能否敏锐指出：「你刚才的分析忽略了我们公司目前预算只有1万块钱这个事实，请重新评估。」

11.评估结果

明确地对AI的产出进行评价：「你这次使用的比喻非常精准，但结尾的情感升华还不够，我们需要调整结尾。」

最可怕的洞察：精美包装下的思考降级

在这份数万字的报告中，如果说有什么发现让人细思极恐，那绝对是关于「Artifact Paradox」的发现。

在涉及artifacts的对话中（样本量为1,209），相比无artifacts的对话（样本量为8,621），行为指标的普遍性呈现出以下特征：描述行为和委派行为有所增加，而所有三种辨识行为均有所减少

我们都知道，Claude最杀手级的功能就是Artifacts（可以随时生成网页、代码、流程图、互动界面的可视化窗口）。在包含这类高级产出的对话中（占样本的12.3%），人类与AI的协作方式发生了剧烈的突变。

乍一看，人类似乎变得更专业了：明确目标的比例暴增14.7%；指定格式的比例暴增14.5%；提供示例的比例暴增13.4%。

在工作开始前，人类像个精明的项目经理，把一切安排得明明白白。

但是！一旦AI生成了那个看起来精美绝伦、运行丝滑的Artifact成果，人类的脑子就集体罢工了！

数据冷酷地揭示了这一点：在产出这种精美成果的对话中，人类的批判性审查能力出现了断崖式下跌。

- 识别缺失上下文的概率下降5.2%

- 核查事实的概率下降3.7%

- 质疑AI推理逻辑的概率下降3.1%

这是为什么？Anthropic的分析师一针见血地指出：因为看起来太像真的了！

当AI给你一段干巴巴的文字时，你会下意识地挑错；但当AI直接给你渲染出一个排版精美的PDF，或者一个点击按钮还会发光的App界面时，你潜意识里会觉得：「哇，它连这么复杂的UI都做出来了，它背后的逻辑肯定没问题。」

如果东西看起来是完成的，用户就会把它当成完成的。

但这恰恰是最危险的时刻！

Anthropic近期的经济指数报告表明，任务越复杂，大模型翻车的概率其实越高。在最需要事实核查的复杂代码和高级图表面前，人类反而放下了戒备。

想拿高分？掌握最强杀器——无尽迭代

既然知道了陷阱，那通关的秘籍是什么？

核心就是四个字：迭代精炼。

在用户进行迭代与优化的对话中（样本量为8,424），相较于未进行迭代与优化的对话（样本量为1,406），所有行为指标的普遍性均有显著提升

报告显示，在会使用「迭代」的用户对话中，平均会展现出2.67种其他的流利度行为；而不使用迭代的用户，这个数字只有可怜的1.33。

毫不夸张地说，「迭代」是衡量一个人会不会用AI的绝对分水岭。

不懂迭代的人，把AI当成搜索框；懂迭代的人，把AI当成初级实习生。

高能预警！这是一组极其震撼的倍数对比。

那些习惯和Claude进行多轮迭代来打磨作品的人，比起不迭代的人，去质疑AI逻辑的概率，飙升了 5.6倍！去识别上下文缺失的概率，飙升了4倍！

这就是为什么同样是用Claude，有的人能用它写出拿下百万融资的商业计划书，有的人却觉得它连个请假条都写不好。

差距不在于AI，而在于你是否愿意在对话框里多聊五块钱的。

下次当你觉得AI生成的文章没有灵魂时，不要点重新生成，而是打下这段话：「你上面这版结构不错，但语气太像机器了。现在，假设你是一个有着10年经验、性格有些幽默毒舌的行业老炮，请保持原有大纲，把全文重写一遍，多用短句，并在第三段加一个自嘲的笑话。」

当你开始习惯这样对话时，你的AI流利度分数绝对会直线飙升。

从工具到技能，Anthropic在下一盘大棋

看到这里，你可能会问：Anthropic为什么要费这么大劲，去分析人类的行为，干嘛不直接卷参数、卷跑分？

这恰恰是Anthropic区别于其他AI大厂的最高明之处：他们正在重新定义AI。

通过《AI流利度报告》，他们告诉人类：AI不是一个你买来就能自动变强的装备，AI是一门需要你不断练习的语言和技能。

把研究成果变成产品中的评分卡，这是一个极其精妙的反馈闭环。而Claude的评分卡，就是你的Apple Watch。

通过这种游戏化、数据化的方式，Anthropic正在培养全世界最懂AI、素养最高的一批超级用户。

这不仅仅是为了产品留存，更是为了更安全的AI未来——因为只有具备高辨别力的人类，才不会被未来那些聪明到可怕的AI所蒙蔽。

据透露，Anthropic已经成立了Anthropic学院，推出了AI流利度系列课程，甚至开始与PayPal以及全球各大顶尖高校开展合作。

未来，不同人类使用起AI，区别将很参差。

人类，让AI给你打个分吧

如今，很多人都在焦虑：AI会不会抢走我的工作？

但真正的问题或许是：你配得上现在这么强大的AI吗？

Claude即将上线的AI流利度评分卡，就像一面照妖镜。它照出了我们在新技术面前的懒惰，也指明了通往强者的道路。

虽然目前这个功能何时全量上线、是否对免费用户开放还是个未知数，但标准已经摆在面前了。

问题来了，按照这11项指标，AI给你打多少分？

参考资料：

https://www.testingcatalog.com/anthropic-to-introduce-personal-ai-fluency-scorecard-in-claude/

https://www.anthropic.com/research/AI-fluency-index

编辑：Aeneas David

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

倒反天罡，AI开始给人类打分！Claude评分标准曝光: 优秀人类得7.5分

WAIC2026看什么？这份"不迷路"攻略请收好

德尚是非典型法国人 14年执教留下丰厚遗产

大S给具俊晔留遗产是昏头？实际上她清醒得很

股民当街砍博主！韩国股市 终极大屠杀

把中国超跑卖到英国，比亚迪正在被世界看见

态度原创

第六届“红船颂”中国画、油画作品展 油画选三

十年了，为什么鬼怪CP还能让人美美嗑上？

如何判断自己的高考成败？1个因素定乾坤！#金榜同行人

钱没白花|| 用了6年、真正留下来的心头爱，这次有好价！

股民当街砍博主！韩国股市终极大屠杀

第六届“红船颂”中国画、油画作品展油画选三