网易首页 > 网易号 > 正文 申请入驻

别再盲选模型了!AI 助手一句话帮你搞定!

0
分享至


Hi,我是洛小山,你学习 AI 的搭子。

前两天发了 XSCT Bench 平台,现在 DAU 已经破 500 啦~


有好多朋友非常仔细研究用例,我收到了许多 BUG 反馈,收获了一些小开心。


但还有一些朋友问我:山佬山佬,你这数据太多了,我看不过来了,有没有一些懒人看网站的教程?

当然可以,必须有!

今天这篇,我用一个「润色场景选型」的完整案例,带你走一遍 XSCT 的高效打开方式。

你只需要用自然语言问一句话,AI 会替你把剩下的事全做了。

因为:我做了官方 MCP 应用,免鉴权,直接就可以接到你的 Cherry Studio 里。

01|动动手,用 AI 来选 AI。

什么?!

这个网站 AI 也能看?!

对…

XSCT 本质就是一个交互良好的数据库。

而大模型选型这件事,本质上是一个信息检索 + 数据分析 + 决策推理的任务。

比如:

  • 你要先知道有哪些模型
  • 然后找到这些模型在你关心的场景上的评测数据
  • 再根据能力和价格,做一个性价比分析
  • 最后得出一个结论

这四步,每一步都是大模型擅长的事。

只是以前这些数据散落在各处。

你要么自己跑测试,要么去各个平台一个个扒数据。

XSCT Bench 做的事情,就是把这些数据汇聚到一起,提供 MCP 协议,让你的 AI 助手能直接查询。

所以你只需要问一句:「润色场景用哪个模型比较好?」

AI 会自动调用 XSCT 的工具,帮你查数据、算成本、做对比,最后给你一个可执行的建议。

这就是「用 AI 帮你选 AI」。

02|5 分钟配置 MCP,让你的 AI 助手接上 XSCT

XSCT 的 MCP 服务是免费的,无需注册、无需 API Key。

你只需要一个 URL。

第一步:获取配置

打开 xsct.ai/about ,往下滚,找到「MCP 服务」部分。


这就是你需要的全部配置,点右边的「复制」按钮,一键复制。

第二步:在你的 AI 客户端里添加 MCP 服务器

打开你的 Cherry Studio 。

如果没有的,可以参考。

打开设置 → MCP 服务器 → 点右上角的「+ 添加」→ 选「从 JSON 导入」。


找到 MCP 服务器设置,点「从 JSON 导入」。

第三步:粘贴配置

把刚才复制的 JSON 粘贴进去,点「确定」。


粘贴进去就行,不用改任何东西。

第四步:选择传输类型

这一步很关键:类型要选「可流式传输的 HTTP (streamableHttp)」。


选错类型会连不上,记得选 streamableHttp。

第五步:打开开关,完成

配置完成后,打开开关,你会看到「工具 (8)」的标签——说明 8 个 MCP 工具已经加载成功了。


看到「工具 (8)」就说明配置成功了。

第六步(可选):看看有哪些工具

切到「工具」Tab,可以看到 XSCT 提供的全部 8 个工具:


  • get_leaderboard:查排行榜
  • get_model_scores:查某个模型的各维度评分
  • compare_models:对比两个模型
  • search_testcases:搜索测试用例
  • get_model_case_result:查模型在某用例上的表现
  • get_dimensions:查所有评测维度
  • calculate_cost:计算模型成本
  • get_testcase_curl:生成可复现的 CURL 命令

这 8 个工具覆盖了选型决策的全流程:查榜单、看评分、搜场景、比模型、算成本。

不过你不需要记住这些。

因为 AI 会自动帮你调用。

第七步(可选):添加你的助手


教程不再赘述,只是这里需要单独讲一个:

要记得切到 MCP 服务器这里,点击「手动」,再点击开启。

模型推荐 Kimi K2.5 或者 OpenRouter。


关闭面板,就完成了。

03|实战:用自然语言完成一次完整的模型选型

配置好了,开始实战。

我直接问一个真实业务问题:

「润色场景有哪些模型比较好?」

然后看 AI 怎么帮我解决这个问题。

第一轮:AI 理解需求,自动调用工具


我只问了一句话,AI 自动调用了两个工具:

  • search_testcases:搜索润色相关的测试用例
  • get_leaderboard:获取润色维度的排行榜

它先去找有哪些相关的测试用例,再去看排行榜。

你不需要关心调用哪个工具,AI 会自动判断。

第二轮:AI 返回场景分类和建议


AI 告诉我,XSCT 针对润色场景设计了 8 个测试用例:

  • 产品说明书口语化转正式(风格转换)
  • 简历自我介绍简洁化(精炼压缩)
  • 投诉信语气柔化调整(情感基调调整)
  • 学术摘要科普化改写(专业术语通俗化)
  • 营销文案逻辑重构(逻辑重组)
  • 错别字病句综合修正(错误修正)
  • 年终总结文采提升(文采提升)

而且还给了建议:日常简单润色选性价比模型,专业复杂润色选顶级模型。

但这还不够。

我需要更具体的答案。

第三轮:我追问一个企业级场景

我继续问:

「如果输入是 5000 token,输出 2000 token,平均用户一天发起 300 次,其中 80% 都能触发 KV Cache,哪些模型比较好?」

AI 开始拆解这个问题:

  • 20% 请求(60次):完整计算,输入 5000 token 全价
  • 80% 请求(240次):KV Cache 命中,输入 token 成本按 1 折计算

然后它调用了 5 个工具(为了避免大模型幻觉,我特意为你制作了计算器,AI 传入参数就可以直接计算),并行计算多个模型的成本。

第四轮:AI 生成完整的成本分析报告


AI 生成了一份完整的「润色场景 · 带 KV Cache 的成本分析报告」。

关键数据:

  • 正常请求:60次,输入 5,000 token,输出 2,000 token
  • Cache Hit:240次,输入 500(打 1 折),输出 2,000 token
  • 日均合计:300次,输入 420,000 token,输出 600,000 token

结论:如果没有 Cache,日均输入是 1,500,000 token;有了 Cache,输入成本压缩到 28%。

第五轮:完整的模型对比排名

然后就是 AI 基于数据,给你生成推荐的排名。


各模型每日成本对比(含 KV Cache):

  1. 1.MIMO V2 Flash:综合分 94.4,月均 ¥74.4
  1. 2.Qwen3.5 Plus:综合分 95.0,月均 ¥130.2
  1. 3.Grok 4.1 Fast:综合分 92.1,月均 ¥136.8
  1. 4.LongCat Flash:综合分 92.6,月均 ¥159.6
  1. 5.Qwen3-Max:综合分 94.8,月均 ¥215.4
  1. 6.Kimi K2.5:综合分 94.5,月均 ¥412.2
  1. 7.Gemini 3.1 Pro:综合分 94.0,月均 ¥2172
  1. 8.Claude Sonnet 4.6:综合分 95.0,月均 ¥2808

同样 95 分左右的能力,月费从 ¥74 到 ¥2808,差了 38 倍。

这就是为什么我提供 MCP 服务吗,让 AI 来帮你做这件事…

你可以肉眼看效果,让模型来给你做运算,省点脑力。

第六轮:AI 给出分层推荐建议


过程中,AI 也没到此为止,给出了分层建议:

不推荐:Claude Sonnet 4.6 / Gemini 3.1 Pro

  • 性能并未碾压其他模型(综合分相近)
  • 但月费分别高达 ¥2808 / ¥2172

首选:Qwen3.5 Plus

  • 性能与 Claude 打平(同为 95.0)
  • 只要 ¥130,适合对效果要求高的场景

备选:MIMO V2 Flash

  • 仅 ¥74,综合分 94.4

然后他还引导我,问我要不要看看效果对比。

第七轮:好啊。

我想看看这两个模型在具体用例上的表现。

「可以啊,对比一下用例吧。」

AI 自动调用我提供的 compare_models 工具了,选取了 3 个有代表性的润色场景来深度对比。

第八轮:最终给你完整的决策指南


最终的对比结果:

  1. 1.MIMO V2 Flash:成本 ¥74.4,润色平均分 94.0,性价比指数 12.6
  1. 2.Qwen3-Max:成本 ¥215.4,润色平均分 95.4,性价比指数 4.4
  1. 3.Claude Sonnet 4.6:成本 ¥2808,润色平均分 96.1,性价比指数 0.3

AI 还给了具体的选择建议:

选 MIMO V2 Flash 如果:

  • 预算敏感(月省 ¥141,年省 ¥1692)
  • 高频批量处理(简历压缩、简单文案优化)
  • 追求极致性价比,对中等难度场景的瑕疵容忍
  • 风险点:中等难度场景偶有冗余保留,需人工二次校对

选 Qwen3-Max 如果:

  • 专业场景为主(医疗、法律、企业公关文书)
  • 需要深度情感调整(投诉处理、客户沟通)
  • 要求输出结构化和分析深度
  • 风险点:成本是 MIMO 的 2.9 倍,基础场景偶有细节失误

这不省老鼻子事了吗。

但!还没有到此为止。

这些都是 AI 说的,你想要跑一下这个用例怎么办?

04|AI 还能帮你生成可执行的代码

我还提供了 Get CURL 的工具。

如果你想在自己的环境里测试这些场景,AI 可以直接帮你生成 CURL 命令。


AI 直接生成了 3 个可执行的代码片段:

  • 用例 1:简历/摘要简洁化(数据保留型润色)
  • 用例 2:投诉信语气柔化调整(情感基调型润色)

不需要你自己去查 API 文档、拼参数,你改一下 KEY ,复制粘贴到终端就能跑。或者直接把 KEY 发给 AI,让 AI 给你生成最终版的。

是不是很贴心!!

05|小结:整个过程做了什么?

回顾一下,从「润色场景用哪个模型好」这个问题开始,到最后拿到一个完整的决策建议,我一共发了三句话。

  1. 1.问了一句「润色场景有哪些模型比较好」
  1. 2.追问了一个企业级成本计算场景
  1. 3.追问了一个「对比一下用例」

就这三句话。

AI 自动帮我做了:

  • 搜索相关测试用例
  • 获取排行榜数据
  • 理解 KV Cache 命中率并拆解计算逻辑
  • 批量计算 8 个模型的成本
  • 生成完整的成本分析报告
  • 给出分层推荐建议
  • 深度对比具体用例表现
  • 生成可执行的 CURL 命令

这就是 XSCT + MCP 的价值。

你只官问,剩下的,交给 AI。

06|如果你还是想自己看数据

当然,你还是可以直接上xsct.ai看数据。

也可以点击「查看原文」立刻访问。

下面简单介绍一下平台的核心功能。

为了能让你看得更舒服,我这两天做了海量的优化!

用例搜索:按场景找评测


搜索「文风迁移」,找到 1 个匹配用例。支持关键词 + 语义混合搜索,不会漏掉相关场景。

用例详情:完整的 Prompt 和评分标准


每个用例都有完整的 System Prompt、User 输入、任务要求。

右侧是 34 个模型的评测结果排名。

评分标准:供你参考


每个维度的权重(50% 文风契合度、30% 文学表达质量、20% 指令遵循)和评分标准都可以直接阅读。

难度分层:基础 / 进阶 / 困难


同一个用例,困难档的任务复杂度大幅提升。

基础档排名靠前的模型,困难档可能掉分。性价比冠军也可能换人。

模型结果详情:看实际输出


Qwen 3 Max 在「散文文风迁移写作」用例上的详细结果:

  • 综合评分:84.3
  • 评分细项:文风契合度 82 × 35%、文学表达质量 81.2 × 0%、指令遵循 89 × 25%…
  • 右侧是模型实际输出的散文,你可以自己判断质量
  • 底部显示单次调用费用:$0.002 刀(¥0.014)

这个用例下,尽可能完整的详情,都能看到了。

你要是看不清,你还可以拖一下分栏尺寸…


图像生成:多模型同台对比


「简单人物肖像」用例,7 个模型生成的图同台对比,准确性一目了然。

还有一些易用性优化~

你还可以直接点进去查看细节。


也可以点击右上角直接切换难度。


AI 还帮你识别了图像没有遵循指令的地方。


鼠标移动这里可以快速查看其他用例,不用像之前那样再回到用例集了。

对于你喜欢的用例,还能直接置顶。


对于你关注的模型,也可以直接置顶。

它会横跨所有的用例里面置顶,帮助你快速找到你关注的模型(最多 5 个)。


所有的更新日志,你都可以在页面的博客/更新日志里面看到。


07|希望你能喜欢。

做完这个 MCP 服务,我自己用了几次,体验确实很舒服。

以前选模型,我要自己翻文档、查价格、算成本、写测试脚本。

现在我只需要问一句话。

但这个服务还有很多可以优化的地方:

比如工具的响应速度还能快一点;

一些边界 Case 还没调整完;

测评数据数据还在持续更新中,有些新模型还没来得及跑…

开工之后,我也会非常忙,更新频率可能会降低(但一定会持续维护)

但我非常希望,它能帮到你!

可以点击「查看原文」立刻访问。

终|你的下一个问题是什么?

这篇文章教你的是「方法」,但真正有价值的是「你的问题」。

MCP 服务已经配置好了,XSCT 的 8 个工具也在那里。

你可以问:

「代码生成场景,用哪个模型性价比最高?」

「我要做一个客服 AI ,每天调用 10 万次,成本怎么算?」

「Qwen3-Max 和 Claude 在创意写作上有什么差异?」

「图像生成哪个模型中文最好?」

我想,AI 都会帮你找到答案。

地址:xsct.ai

如果这篇文章对你有帮助,欢迎转给你身边正在选模型的朋友。

你现在最想问的,是哪个场景下用哪个模型?

欢迎评论区告诉我哦!

我是洛小山,我们下次见。

Ps. 非常感谢这些小伙伴们对我的支持,你们的支持就是我持续更新的动力!


关于我

我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点,只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品,欢迎关注我,我们一起进化。

本文知识产权归洛小山所有。

未经授权,禁止抓取本文内容,用于模型训练以及二次创作等用途。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
售罄!告急!“没有一万块回不来上海”?官方出手↗

售罄!告急!“没有一万块回不来上海”?官方出手↗

申消费
2026-02-24 10:53:53
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
65岁黄子华现身广州路演,收到街坊们给的厚厚一叠“利是”,网友:在广东,100岁没结婚都有“利是”收

65岁黄子华现身广州路演,收到街坊们给的厚厚一叠“利是”,网友:在广东,100岁没结婚都有“利是”收

极目新闻
2026-02-23 15:16:19
中国队夺冠奖金曝光!12人获重奖!李琰霸气表态:带队就要夺冠军

中国队夺冠奖金曝光!12人获重奖!李琰霸气表态:带队就要夺冠军

何老师呀
2026-02-24 07:04:26
郭汝瑰坦言:没有毛泽东指挥挺进大别山,解放战争就不会只打4年

郭汝瑰坦言:没有毛泽东指挥挺进大别山,解放战争就不会只打4年

楚风说历史
2026-02-20 09:30:03
“去中国化”最彻底的4个国家,有一个已经完全西化了

“去中国化”最彻底的4个国家,有一个已经完全西化了

北纬的咖啡豆
2026-02-24 09:16:33
内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

品读时刻
2026-02-11 17:18:30
男子花80块钱请人画画,付款时,要了张收据,50年后,这张收据卖了180万

男子花80块钱请人画画,付款时,要了张收据,50年后,这张收据卖了180万

霹雳炮
2026-02-14 20:47:47
詹姆斯10中10!湖人三项数据,联盟第一!

詹姆斯10中10!湖人三项数据,联盟第一!

范动舍长
2026-02-24 13:31:38
别碰!正在坍塌的5个行业:门外汉抢着接盘,聪明人已在卖设备。

别碰!正在坍塌的5个行业:门外汉抢着接盘,聪明人已在卖设备。

三农老历
2026-02-15 12:47:14
纯电续航430km已成现实,增程与插混的多年争论,该回归理性了

纯电续航430km已成现实,增程与插混的多年争论,该回归理性了

侃故事的阿庆
2026-02-24 12:50:09
常规赛季后赛都是第一!詹姆斯突破43000分,比贾巴尔多近5000分

常规赛季后赛都是第一!詹姆斯突破43000分,比贾巴尔多近5000分

无术不学
2026-02-24 10:48:26
历史玩笑!乌克兰还没倒下,垄断全球富豪资产的瑞士,先顶不住了

历史玩笑!乌克兰还没倒下,垄断全球富豪资产的瑞士,先顶不住了

至死不渝的爱情
2025-12-10 15:32:29
必须感谢成都蓉城!拜合拉木梅开二度:进球能力被彻底激活!

必须感谢成都蓉城!拜合拉木梅开二度:进球能力被彻底激活!

邱泽云
2026-02-23 20:52:54
火箭赢了,但问题比输球还多,乌度卡死用杜兰特暴露战术短板

火箭赢了,但问题比输球还多,乌度卡死用杜兰特暴露战术短板

不凡体育
2026-02-24 13:25:37
澳大利亚慌了:西芒杜铁矿石首次运往中国,为何标志着全球里程碑

澳大利亚慌了:西芒杜铁矿石首次运往中国,为何标志着全球里程碑

命运自认幽默
2026-02-17 19:50:44
你们发现了吗?父母有退休金的家庭,基本都是这5种结局!

你们发现了吗?父母有退休金的家庭,基本都是这5种结局!

匹夫来搞笑
2026-01-28 10:23:39
43000分历史首人!美媒纷纷为勒布朗戴上皇冠 布朗:他是GOAT

43000分历史首人!美媒纷纷为勒布朗戴上皇冠 布朗:他是GOAT

颜小白的篮球梦
2026-02-23 16:57:56
45岁任家萱胖到160斤,穿百褶裙腿部疤痕明显,2岁腰果身高超1米

45岁任家萱胖到160斤,穿百褶裙腿部疤痕明显,2岁腰果身高超1米

疯说时尚
2026-02-23 09:31:20
爆火!2800元/斤!温州已卖上千斤

爆火!2800元/斤!温州已卖上千斤

大永强
2026-02-24 11:08:16
2026-02-24 14:55:00
洛小山
洛小山
用体验做推演,用产品思维看AI。
57文章数 10关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

牛弹琴:白宫突然发了张图 伤害性不大侮辱性极强

头条要闻

牛弹琴:白宫突然发了张图 伤害性不大侮辱性极强

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

杨洋传遇上缅北剧组 开机就离开剧组?

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

时尚
本地
健康
数码
手机

今年春天一定要拥有的针织,这样穿减龄又好看!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

转头就晕的耳石症,能开车上班吗?

数码要闻

石头P20 Max自清洁扫拖机器人上市,4299元起

手机要闻

OPPO折叠屏Find N6宣称“一马平川”,主打极致平整屏幕

无障碍浏览 进入关怀版