![]()
Hi,我是洛小山,你学习 AI 的搭子。
前两天发了 XSCT Bench 平台,现在 DAU 已经破 500 啦~
![]()
有好多朋友非常仔细研究用例,我收到了许多 BUG 反馈,收获了一些小开心。
![]()
但还有一些朋友问我:山佬山佬,你这数据太多了,我看不过来了,有没有一些懒人看网站的教程?
当然可以,必须有!
今天这篇,我用一个「润色场景选型」的完整案例,带你走一遍 XSCT 的高效打开方式。
你只需要用自然语言问一句话,AI 会替你把剩下的事全做了。
因为:我做了官方 MCP 应用,免鉴权,直接就可以接到你的 Cherry Studio 里。
01|动动手,用 AI 来选 AI。
什么?!
这个网站 AI 也能看?!
对…
XSCT 本质就是一个交互良好的数据库。
而大模型选型这件事,本质上是一个信息检索 + 数据分析 + 决策推理的任务。
比如:
- 你要先知道有哪些模型
- 然后找到这些模型在你关心的场景上的评测数据
- 再根据能力和价格,做一个性价比分析
- 最后得出一个结论
这四步,每一步都是大模型擅长的事。
只是以前这些数据散落在各处。
你要么自己跑测试,要么去各个平台一个个扒数据。
XSCT Bench 做的事情,就是把这些数据汇聚到一起,提供 MCP 协议,让你的 AI 助手能直接查询。
所以你只需要问一句:「润色场景用哪个模型比较好?」
AI 会自动调用 XSCT 的工具,帮你查数据、算成本、做对比,最后给你一个可执行的建议。
这就是「用 AI 帮你选 AI」。
02|5 分钟配置 MCP,让你的 AI 助手接上 XSCT
XSCT 的 MCP 服务是免费的,无需注册、无需 API Key。
你只需要一个 URL。
第一步:获取配置
打开 xsct.ai/about ,往下滚,找到「MCP 服务」部分。
![]()
这就是你需要的全部配置,点右边的「复制」按钮,一键复制。
第二步:在你的 AI 客户端里添加 MCP 服务器
打开你的 Cherry Studio 。
如果没有的,可以参考。
打开设置 → MCP 服务器 → 点右上角的「+ 添加」→ 选「从 JSON 导入」。
![]()
找到 MCP 服务器设置,点「从 JSON 导入」。
第三步:粘贴配置
把刚才复制的 JSON 粘贴进去,点「确定」。
![]()
粘贴进去就行,不用改任何东西。
第四步:选择传输类型
这一步很关键:类型要选「可流式传输的 HTTP (streamableHttp)」。
![]()
选错类型会连不上,记得选 streamableHttp。
第五步:打开开关,完成
配置完成后,打开开关,你会看到「工具 (8)」的标签——说明 8 个 MCP 工具已经加载成功了。
![]()
看到「工具 (8)」就说明配置成功了。
第六步(可选):看看有哪些工具
切到「工具」Tab,可以看到 XSCT 提供的全部 8 个工具:
![]()
- get_leaderboard:查排行榜
- get_model_scores:查某个模型的各维度评分
- compare_models:对比两个模型
- search_testcases:搜索测试用例
- get_model_case_result:查模型在某用例上的表现
- get_dimensions:查所有评测维度
- calculate_cost:计算模型成本
- get_testcase_curl:生成可复现的 CURL 命令
这 8 个工具覆盖了选型决策的全流程:查榜单、看评分、搜场景、比模型、算成本。
不过你不需要记住这些。
因为 AI 会自动帮你调用。
第七步(可选):添加你的助手
![]()
教程不再赘述,只是这里需要单独讲一个:
要记得切到 MCP 服务器这里,点击「手动」,再点击开启。
模型推荐 Kimi K2.5 或者 OpenRouter。
![]()
关闭面板,就完成了。
03|实战:用自然语言完成一次完整的模型选型
配置好了,开始实战。
我直接问一个真实业务问题:
「润色场景有哪些模型比较好?」
然后看 AI 怎么帮我解决这个问题。
第一轮:AI 理解需求,自动调用工具
![]()
我只问了一句话,AI 自动调用了两个工具:
- search_testcases:搜索润色相关的测试用例
- get_leaderboard:获取润色维度的排行榜
它先去找有哪些相关的测试用例,再去看排行榜。
你不需要关心调用哪个工具,AI 会自动判断。
第二轮:AI 返回场景分类和建议
![]()
AI 告诉我,XSCT 针对润色场景设计了 8 个测试用例:
- 产品说明书口语化转正式(风格转换)
- 简历自我介绍简洁化(精炼压缩)
- 投诉信语气柔化调整(情感基调调整)
- 学术摘要科普化改写(专业术语通俗化)
- 营销文案逻辑重构(逻辑重组)
- 错别字病句综合修正(错误修正)
- 年终总结文采提升(文采提升)
而且还给了建议:日常简单润色选性价比模型,专业复杂润色选顶级模型。
但这还不够。
我需要更具体的答案。
第三轮:我追问一个企业级场景
我继续问:
「如果输入是 5000 token,输出 2000 token,平均用户一天发起 300 次,其中 80% 都能触发 KV Cache,哪些模型比较好?」
AI 开始拆解这个问题:
- 20% 请求(60次):完整计算,输入 5000 token 全价
- 80% 请求(240次):KV Cache 命中,输入 token 成本按 1 折计算
然后它调用了 5 个工具(为了避免大模型幻觉,我特意为你制作了计算器,AI 传入参数就可以直接计算),并行计算多个模型的成本。
第四轮:AI 生成完整的成本分析报告
![]()
AI 生成了一份完整的「润色场景 · 带 KV Cache 的成本分析报告」。
关键数据:
- 正常请求:60次,输入 5,000 token,输出 2,000 token
- Cache Hit:240次,输入 500(打 1 折),输出 2,000 token
- 日均合计:300次,输入 420,000 token,输出 600,000 token
结论:如果没有 Cache,日均输入是 1,500,000 token;有了 Cache,输入成本压缩到 28%。
第五轮:完整的模型对比排名
然后就是 AI 基于数据,给你生成推荐的排名。
![]()
各模型每日成本对比(含 KV Cache):
- 1.MIMO V2 Flash:综合分 94.4,月均 ¥74.4
- 2.Qwen3.5 Plus:综合分 95.0,月均 ¥130.2
- 3.Grok 4.1 Fast:综合分 92.1,月均 ¥136.8
- 4.LongCat Flash:综合分 92.6,月均 ¥159.6
- 5.Qwen3-Max:综合分 94.8,月均 ¥215.4
- 6.Kimi K2.5:综合分 94.5,月均 ¥412.2
- 7.Gemini 3.1 Pro:综合分 94.0,月均 ¥2172
- 8.Claude Sonnet 4.6:综合分 95.0,月均 ¥2808
同样 95 分左右的能力,月费从 ¥74 到 ¥2808,差了 38 倍。
这就是为什么我提供 MCP 服务吗,让 AI 来帮你做这件事…
你可以肉眼看效果,让模型来给你做运算,省点脑力。
第六轮:AI 给出分层推荐建议
![]()
过程中,AI 也没到此为止,给出了分层建议:
不推荐:Claude Sonnet 4.6 / Gemini 3.1 Pro
- 性能并未碾压其他模型(综合分相近)
- 但月费分别高达 ¥2808 / ¥2172
首选:Qwen3.5 Plus
- 性能与 Claude 打平(同为 95.0)
- 只要 ¥130,适合对效果要求高的场景
备选:MIMO V2 Flash
- 仅 ¥74,综合分 94.4
然后他还引导我,问我要不要看看效果对比。
第七轮:好啊。
我想看看这两个模型在具体用例上的表现。
「可以啊,对比一下用例吧。」
AI 自动调用我提供的 compare_models 工具了,选取了 3 个有代表性的润色场景来深度对比。
第八轮:最终给你完整的决策指南
![]()
最终的对比结果:
- 1.MIMO V2 Flash:成本 ¥74.4,润色平均分 94.0,性价比指数 12.6
- 2.Qwen3-Max:成本 ¥215.4,润色平均分 95.4,性价比指数 4.4
- 3.Claude Sonnet 4.6:成本 ¥2808,润色平均分 96.1,性价比指数 0.3
AI 还给了具体的选择建议:
选 MIMO V2 Flash 如果:
- 预算敏感(月省 ¥141,年省 ¥1692)
- 高频批量处理(简历压缩、简单文案优化)
- 追求极致性价比,对中等难度场景的瑕疵容忍
- 风险点:中等难度场景偶有冗余保留,需人工二次校对
选 Qwen3-Max 如果:
- 专业场景为主(医疗、法律、企业公关文书)
- 需要深度情感调整(投诉处理、客户沟通)
- 要求输出结构化和分析深度
- 风险点:成本是 MIMO 的 2.9 倍,基础场景偶有细节失误
这不省老鼻子事了吗。
但!还没有到此为止。
这些都是 AI 说的,你想要跑一下这个用例怎么办?
04|AI 还能帮你生成可执行的代码
我还提供了 Get CURL 的工具。
如果你想在自己的环境里测试这些场景,AI 可以直接帮你生成 CURL 命令。
![]()
AI 直接生成了 3 个可执行的代码片段:
- 用例 1:简历/摘要简洁化(数据保留型润色)
- 用例 2:投诉信语气柔化调整(情感基调型润色)
不需要你自己去查 API 文档、拼参数,你改一下 KEY ,复制粘贴到终端就能跑。或者直接把 KEY 发给 AI,让 AI 给你生成最终版的。
是不是很贴心!!
05|小结:整个过程做了什么?
回顾一下,从「润色场景用哪个模型好」这个问题开始,到最后拿到一个完整的决策建议,我一共发了三句话。
- 1.问了一句「润色场景有哪些模型比较好」
- 2.追问了一个企业级成本计算场景
- 3.追问了一个「对比一下用例」
就这三句话。
AI 自动帮我做了:
- 搜索相关测试用例
- 获取排行榜数据
- 理解 KV Cache 命中率并拆解计算逻辑
- 批量计算 8 个模型的成本
- 生成完整的成本分析报告
- 给出分层推荐建议
- 深度对比具体用例表现
- 生成可执行的 CURL 命令
这就是 XSCT + MCP 的价值。
你只官问,剩下的,交给 AI。
06|如果你还是想自己看数据
当然,你还是可以直接上xsct.ai看数据。
也可以点击「查看原文」立刻访问。
下面简单介绍一下平台的核心功能。
为了能让你看得更舒服,我这两天做了海量的优化!
用例搜索:按场景找评测
![]()
搜索「文风迁移」,找到 1 个匹配用例。支持关键词 + 语义混合搜索,不会漏掉相关场景。
用例详情:完整的 Prompt 和评分标准
![]()
每个用例都有完整的 System Prompt、User 输入、任务要求。
右侧是 34 个模型的评测结果排名。
评分标准:供你参考
![]()
每个维度的权重(50% 文风契合度、30% 文学表达质量、20% 指令遵循)和评分标准都可以直接阅读。
难度分层:基础 / 进阶 / 困难
![]()
同一个用例,困难档的任务复杂度大幅提升。
基础档排名靠前的模型,困难档可能掉分。性价比冠军也可能换人。
模型结果详情:看实际输出
![]()
Qwen 3 Max 在「散文文风迁移写作」用例上的详细结果:
- 综合评分:84.3
- 评分细项:文风契合度 82 × 35%、文学表达质量 81.2 × 0%、指令遵循 89 × 25%…
- 右侧是模型实际输出的散文,你可以自己判断质量
- 底部显示单次调用费用:$0.002 刀(¥0.014)
这个用例下,尽可能完整的详情,都能看到了。
你要是看不清,你还可以拖一下分栏尺寸…
![]()
图像生成:多模型同台对比
![]()
「简单人物肖像」用例,7 个模型生成的图同台对比,准确性一目了然。
还有一些易用性优化~
你还可以直接点进去查看细节。
![]()
也可以点击右上角直接切换难度。
![]()
AI 还帮你识别了图像没有遵循指令的地方。
![]()
鼠标移动这里可以快速查看其他用例,不用像之前那样再回到用例集了。
对于你喜欢的用例,还能直接置顶。
![]()
对于你关注的模型,也可以直接置顶。
它会横跨所有的用例里面置顶,帮助你快速找到你关注的模型(最多 5 个)。
![]()
所有的更新日志,你都可以在页面的博客/更新日志里面看到。
![]()
07|希望你能喜欢。
做完这个 MCP 服务,我自己用了几次,体验确实很舒服。
以前选模型,我要自己翻文档、查价格、算成本、写测试脚本。
现在我只需要问一句话。
但这个服务还有很多可以优化的地方:
比如工具的响应速度还能快一点;
一些边界 Case 还没调整完;
测评数据数据还在持续更新中,有些新模型还没来得及跑…
开工之后,我也会非常忙,更新频率可能会降低(但一定会持续维护)
但我非常希望,它能帮到你!
可以点击「查看原文」立刻访问。
终|你的下一个问题是什么?
这篇文章教你的是「方法」,但真正有价值的是「你的问题」。
MCP 服务已经配置好了,XSCT 的 8 个工具也在那里。
你可以问:
「代码生成场景,用哪个模型性价比最高?」
「我要做一个客服 AI ,每天调用 10 万次,成本怎么算?」
「Qwen3-Max 和 Claude 在创意写作上有什么差异?」
「图像生成哪个模型中文最好?」
我想,AI 都会帮你找到答案。
地址:xsct.ai
如果这篇文章对你有帮助,欢迎转给你身边正在选模型的朋友。
你现在最想问的,是哪个场景下用哪个模型?
欢迎评论区告诉我哦!
我是洛小山,我们下次见。
Ps. 非常感谢这些小伙伴们对我的支持,你们的支持就是我持续更新的动力!
![]()
关于我
我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。
我不追热点,只分享那些能真正改变我们工作模式的观察和工具。
如果你也在做 AI 产品,欢迎关注我,我们一起进化。
本文知识产权归洛小山所有。
未经授权,禁止抓取本文内容,用于模型训练以及二次创作等用途。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.