别再盲选模型了！AI 助手一句话帮你搞定！|调用|用例|key|新论文|ai助手

分享至

Hi，我是洛小山，你学习 AI 的搭子。

前两天发了 XSCT Bench 平台，现在 DAU 已经破 500 啦～

有好多朋友非常仔细研究用例，我收到了许多 BUG 反馈，收获了一些小开心。

但还有一些朋友问我：山佬山佬，你这数据太多了，我看不过来了，有没有一些懒人看网站的教程？

当然可以，必须有！

今天这篇，我用一个「润色场景选型」的完整案例，带你走一遍 XSCT 的高效打开方式。

你只需要用自然语言问一句话，AI 会替你把剩下的事全做了。

因为：我做了官方 MCP 应用，免鉴权，直接就可以接到你的 Cherry Studio 里。

01｜动动手，用 AI 来选 AI。

什么？！

这个网站 AI 也能看？！

对…

XSCT 本质就是一个交互良好的数据库。

而大模型选型这件事，本质上是一个信息检索 + 数据分析 + 决策推理的任务。

比如：

你要先知道有哪些模型

然后找到这些模型在你关心的场景上的评测数据

再根据能力和价格，做一个性价比分析

最后得出一个结论

这四步，每一步都是大模型擅长的事。

只是以前这些数据散落在各处。

你要么自己跑测试，要么去各个平台一个个扒数据。

XSCT Bench 做的事情，就是把这些数据汇聚到一起，提供 MCP 协议，让你的 AI 助手能直接查询。

所以你只需要问一句：「润色场景用哪个模型比较好？」

AI 会自动调用 XSCT 的工具，帮你查数据、算成本、做对比，最后给你一个可执行的建议。

这就是「用 AI 帮你选 AI」。

02｜5 分钟配置 MCP，让你的 AI 助手接上 XSCT

XSCT 的 MCP 服务是免费的，无需注册、无需 API Key。

你只需要一个 URL。

第一步：获取配置

打开 xsct.ai/about ，往下滚，找到「MCP 服务」部分。

这就是你需要的全部配置，点右边的「复制」按钮，一键复制。

第二步：在你的 AI 客户端里添加 MCP 服务器

打开你的 Cherry Studio 。

如果没有的，可以参考。

打开设置 → MCP 服务器 → 点右上角的「+ 添加」→ 选「从 JSON 导入」。

找到 MCP 服务器设置，点「从 JSON 导入」。

第三步：粘贴配置

把刚才复制的 JSON 粘贴进去，点「确定」。

粘贴进去就行，不用改任何东西。

第四步：选择传输类型

这一步很关键：类型要选「可流式传输的 HTTP (streamableHttp)」。

选错类型会连不上，记得选 streamableHttp。

第五步：打开开关，完成

配置完成后，打开开关，你会看到「工具 (8)」的标签——说明 8 个 MCP 工具已经加载成功了。

看到「工具 (8)」就说明配置成功了。

第六步（可选）：看看有哪些工具

切到「工具」Tab，可以看到 XSCT 提供的全部 8 个工具：

get_leaderboard：查排行榜

get_model_scores：查某个模型的各维度评分

compare_models：对比两个模型

search_testcases：搜索测试用例

get_model_case_result：查模型在某用例上的表现

get_dimensions：查所有评测维度

calculate_cost：计算模型成本

get_testcase_curl：生成可复现的 CURL 命令

这 8 个工具覆盖了选型决策的全流程：查榜单、看评分、搜场景、比模型、算成本。

不过你不需要记住这些。

因为 AI 会自动帮你调用。

第七步（可选）：添加你的助手

教程不再赘述，只是这里需要单独讲一个：

要记得切到 MCP 服务器这里，点击「手动」，再点击开启。

模型推荐 Kimi K2.5 或者 OpenRouter。

关闭面板，就完成了。

03｜实战：用自然语言完成一次完整的模型选型

配置好了，开始实战。

我直接问一个真实业务问题：

「润色场景有哪些模型比较好？」

然后看 AI 怎么帮我解决这个问题。

第一轮：AI 理解需求，自动调用工具

我只问了一句话，AI 自动调用了两个工具：

search_testcases：搜索润色相关的测试用例

get_leaderboard：获取润色维度的排行榜

它先去找有哪些相关的测试用例，再去看排行榜。

你不需要关心调用哪个工具，AI 会自动判断。

第二轮：AI 返回场景分类和建议

AI 告诉我，XSCT 针对润色场景设计了 8 个测试用例：

产品说明书口语化转正式（风格转换）

简历自我介绍简洁化（精炼压缩）

投诉信语气柔化调整（情感基调调整）

学术摘要科普化改写（专业术语通俗化）

营销文案逻辑重构（逻辑重组）

错别字病句综合修正（错误修正）

年终总结文采提升（文采提升）

而且还给了建议：日常简单润色选性价比模型，专业复杂润色选顶级模型。

但这还不够。

我需要更具体的答案。

第三轮：我追问一个企业级场景

我继续问：

「如果输入是 5000 token，输出 2000 token，平均用户一天发起 300 次，其中 80% 都能触发 KV Cache，哪些模型比较好？」

AI 开始拆解这个问题：

20% 请求（60次）：完整计算，输入 5000 token 全价

80% 请求（240次）：KV Cache 命中，输入 token 成本按 1 折计算

然后它调用了 5 个工具（为了避免大模型幻觉，我特意为你制作了计算器，AI 传入参数就可以直接计算），并行计算多个模型的成本。

第四轮：AI 生成完整的成本分析报告

AI 生成了一份完整的「润色场景 · 带 KV Cache 的成本分析报告」。

关键数据：

正常请求：60次，输入 5,000 token，输出 2,000 token

Cache Hit：240次，输入 500（打 1 折），输出 2,000 token

日均合计：300次，输入 420,000 token，输出 600,000 token

结论：如果没有 Cache，日均输入是 1,500,000 token；有了 Cache，输入成本压缩到 28%。

第五轮：完整的模型对比排名

然后就是 AI 基于数据，给你生成推荐的排名。

各模型每日成本对比（含 KV Cache）：

1.MIMO V2 Flash：综合分 94.4，月均 ¥74.4

2.Qwen3.5 Plus：综合分 95.0，月均 ¥130.2

3.Grok 4.1 Fast：综合分 92.1，月均 ¥136.8

4.LongCat Flash：综合分 92.6，月均 ¥159.6

5.Qwen3-Max：综合分 94.8，月均 ¥215.4

6.Kimi K2.5：综合分 94.5，月均 ¥412.2

7.Gemini 3.1 Pro：综合分 94.0，月均 ¥2172

8.Claude Sonnet 4.6：综合分 95.0，月均 ¥2808

同样 95 分左右的能力，月费从 ¥74 到 ¥2808，差了 38 倍。

这就是为什么我提供 MCP 服务吗，让 AI 来帮你做这件事…

你可以肉眼看效果，让模型来给你做运算，省点脑力。

第六轮：AI 给出分层推荐建议

过程中，AI 也没到此为止，给出了分层建议：

不推荐：Claude Sonnet 4.6 / Gemini 3.1 Pro

性能并未碾压其他模型（综合分相近）

但月费分别高达 ¥2808 / ¥2172

首选：Qwen3.5 Plus

性能与 Claude 打平（同为 95.0）

只要 ¥130，适合对效果要求高的场景

备选：MIMO V2 Flash

仅 ¥74，综合分 94.4

然后他还引导我，问我要不要看看效果对比。

第七轮：好啊。

我想看看这两个模型在具体用例上的表现。

「可以啊，对比一下用例吧。」

AI 自动调用我提供的 compare_models 工具了，选取了 3 个有代表性的润色场景来深度对比。

第八轮：最终给你完整的决策指南

最终的对比结果：

1.MIMO V2 Flash：成本 ¥74.4，润色平均分 94.0，性价比指数 12.6

2.Qwen3-Max：成本 ¥215.4，润色平均分 95.4，性价比指数 4.4

3.Claude Sonnet 4.6：成本 ¥2808，润色平均分 96.1，性价比指数 0.3

AI 还给了具体的选择建议：

选 MIMO V2 Flash 如果：

预算敏感（月省 ¥141，年省 ¥1692）

高频批量处理（简历压缩、简单文案优化）

追求极致性价比，对中等难度场景的瑕疵容忍

风险点：中等难度场景偶有冗余保留，需人工二次校对

选 Qwen3-Max 如果：

专业场景为主（医疗、法律、企业公关文书）

需要深度情感调整（投诉处理、客户沟通）

要求输出结构化和分析深度

风险点：成本是 MIMO 的 2.9 倍，基础场景偶有细节失误

这不省老鼻子事了吗。

但！还没有到此为止。

这些都是 AI 说的，你想要跑一下这个用例怎么办？

04｜AI 还能帮你生成可执行的代码

我还提供了 Get CURL 的工具。

如果你想在自己的环境里测试这些场景，AI 可以直接帮你生成 CURL 命令。

AI 直接生成了 3 个可执行的代码片段：

用例 1：简历/摘要简洁化（数据保留型润色）

用例 2：投诉信语气柔化调整（情感基调型润色）

不需要你自己去查 API 文档、拼参数，你改一下 KEY ，复制粘贴到终端就能跑。或者直接把 KEY 发给 AI，让 AI 给你生成最终版的。

是不是很贴心！！

05｜小结：整个过程做了什么？

回顾一下，从「润色场景用哪个模型好」这个问题开始，到最后拿到一个完整的决策建议，我一共发了三句话。

1.问了一句「润色场景有哪些模型比较好」

2.追问了一个企业级成本计算场景

3.追问了一个「对比一下用例」

就这三句话。

AI 自动帮我做了：

搜索相关测试用例

获取排行榜数据

理解 KV Cache 命中率并拆解计算逻辑

批量计算 8 个模型的成本

生成完整的成本分析报告

给出分层推荐建议

深度对比具体用例表现

生成可执行的 CURL 命令

这就是 XSCT + MCP 的价值。

你只官问，剩下的，交给 AI。

06｜如果你还是想自己看数据

当然，你还是可以直接上xsct.ai看数据。

也可以点击「查看原文」立刻访问。

下面简单介绍一下平台的核心功能。

为了能让你看得更舒服，我这两天做了海量的优化！

用例搜索：按场景找评测

搜索「文风迁移」，找到 1 个匹配用例。支持关键词 + 语义混合搜索，不会漏掉相关场景。

用例详情：完整的 Prompt 和评分标准

每个用例都有完整的 System Prompt、User 输入、任务要求。

右侧是 34 个模型的评测结果排名。

评分标准：供你参考

每个维度的权重（50% 文风契合度、30% 文学表达质量、20% 指令遵循）和评分标准都可以直接阅读。

难度分层：基础 / 进阶 / 困难

同一个用例，困难档的任务复杂度大幅提升。

基础档排名靠前的模型，困难档可能掉分。性价比冠军也可能换人。

模型结果详情：看实际输出

Qwen 3 Max 在「散文文风迁移写作」用例上的详细结果：

综合评分：84.3

评分细项：文风契合度 82 × 35%、文学表达质量 81.2 × 0%、指令遵循 89 × 25%…

右侧是模型实际输出的散文，你可以自己判断质量

底部显示单次调用费用：$0.002 刀（¥0.014）

这个用例下，尽可能完整的详情，都能看到了。

你要是看不清，你还可以拖一下分栏尺寸…

图像生成：多模型同台对比

「简单人物肖像」用例，7 个模型生成的图同台对比，准确性一目了然。

还有一些易用性优化～

你还可以直接点进去查看细节。

也可以点击右上角直接切换难度。

AI 还帮你识别了图像没有遵循指令的地方。

鼠标移动这里可以快速查看其他用例，不用像之前那样再回到用例集了。

对于你喜欢的用例，还能直接置顶。

对于你关注的模型，也可以直接置顶。

它会横跨所有的用例里面置顶，帮助你快速找到你关注的模型（最多 5 个）。

所有的更新日志，你都可以在页面的博客/更新日志里面看到。

07｜希望你能喜欢。

做完这个 MCP 服务，我自己用了几次，体验确实很舒服。

以前选模型，我要自己翻文档、查价格、算成本、写测试脚本。

现在我只需要问一句话。

但这个服务还有很多可以优化的地方：

比如工具的响应速度还能快一点；

一些边界 Case 还没调整完；

测评数据数据还在持续更新中，有些新模型还没来得及跑…

开工之后，我也会非常忙，更新频率可能会降低（但一定会持续维护）

但我非常希望，它能帮到你！

可以点击「查看原文」立刻访问。

终｜你的下一个问题是什么？

这篇文章教你的是「方法」，但真正有价值的是「你的问题」。

MCP 服务已经配置好了，XSCT 的 8 个工具也在那里。

你可以问：

「代码生成场景，用哪个模型性价比最高？」

「我要做一个客服 AI ，每天调用 10 万次，成本怎么算？」

「Qwen3-Max 和 Claude 在创意写作上有什么差异？」

「图像生成哪个模型中文最好？」

我想，AI 都会帮你找到答案。

地址：xsct.ai

如果这篇文章对你有帮助，欢迎转给你身边正在选模型的朋友。

你现在最想问的，是哪个场景下用哪个模型？

欢迎评论区告诉我哦！

我是洛小山，我们下次见。

Ps. 非常感谢这些小伙伴们对我的支持，你们的支持就是我持续更新的动力！

关于我

我是洛小山，一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点，只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品，欢迎关注我，我们一起进化。

本文知识产权归洛小山所有。

未经授权，禁止抓取本文内容，用于模型训练以及二次创作等用途。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

别再盲选模型了！AI 助手一句话帮你搞定！

AI颠覆发展最新牺牲品！IBM跳水重挫超13%

牛弹琴：白宫突然发了张图 伤害性不大侮辱性极强

牛弹琴：白宫突然发了张图 伤害性不大侮辱性极强

苏翊鸣总结米兰征程：我仍是那个热爱单板滑雪的少年

杨洋传遇上缅北剧组 开机就离开剧组？

县城消费「限时繁荣」了十天

态度原创

今年春天一定要拥有的针织，这样穿减龄又好看！

春花齐放2026：《骏马奔腾迎新岁》

转头就晕的耳石症，能开车上班吗？

石头P20 Max自清洁扫拖机器人上市，4299元起

OPPO折叠屏Find N6宣称“一马平川”，主打极致平整屏幕

牛弹琴：白宫突然发了张图伤害性不大侮辱性极强

牛弹琴：白宫突然发了张图伤害性不大侮辱性极强

杨洋传遇上缅北剧组开机就离开剧组？