网易首页 > 网易号 > 正文 申请入驻

中国版 LMSYS 来了!扣子模型广场带来了什么?

0
分享至

这场由字节豆包引发的大厂至创业公司都杀疯了的国产大模型价格战,让大模型从卷价格的 PK 陡然卷到了质量、实打实的产品力竞争上来。当模型 API 迎来免费浪潮之际,AI 原生应用进一步成为了大模型厂商的“兵家必争之地”,也让无数想要使用大模型大展身手的用户们迎来了将创意落地应用的机会。

2023 年 11 月,OpenAI 发布了 GPTs ,并于今年初推出了 GPTs 商店,这一系列的动作,让普通开发者使用大模型创建出独有的 AI Agent 产品。在近期,OpenAI 也将 GPTs 的使用权限开放给全部用户,让 AI 逐步走向了大众化,普通用户可以深入其中感受到 AI 的魅力。

对于专业的开发者,可以使用诸如 LangChain 等开源框架快速搭建出自己的智能体,用于完成各种复杂的任务。但这些开源的框架对于众多完全不懂编程的用户而言,使用的门槛、成本都非常高,要想实现一个 AI 原生应用还需做大量的前期准备。于是,大模型打响的应用第一战,便是将门槛降到最低,无需编程经验,即可快速创建智能体,其中字节跳动的扣子(coze.cn)便是代表之一,直接集成了多个国内知名大语言模型,包括豆包、通义千问、智谱、MiniMax、Moonshot 、Baichuan等。

至此,选择模型就变得很方便,然而令人头疼的是,截止目前,大模型的数量已经多达 300 个,每个模型的能力表现上可能会有一些差距,有些模型可能在语言理解与生成很强,而有一些模型在逻辑推理上更胜一筹。对于 AI 原生应用开发者来说,要选择一个合适自己的大模型着实不易。要让我们创建的智能体有一个很好的运行效果,往往还需要一遍一遍地进行调整。

于是,对于用户而言,横亘在面前的一大问题就是,究竟该怎么选择趁手的模型呢?


大模型竞技场:盲测模型,先用后选

目前,各大模型公司在发布模型时,一般情况下都会对标 GPT-4 ,公布测试评分。这些评分包括如中/英文综合理解、知识、基础算数、数学解题、逻辑推理、指令遵从等方向测试的结果,这也是业界公认的数据。除此之外,还会有一些三方的企业,站在客观中立的角度,针对大模型构建一些私有的测试集,用于对大模型的能力进行评估,更好地体现出市场上模型的能力,这些测试集的维度包含语言理解与生成、专业技能与知识、安全性等方向。

也正是出于模型效果孰优孰劣的考虑,各式模型评测层出不穷。2023 年,大模型评测领域出现了很多复杂且充满挑战的测评风波,业界对测评标准的公正性与专业水平提出了更高要求。

在此背景下,LMSYS Org 提出了创新型的“实战竞技”模式,发布 Chatbot Arena ,以盲测的方式,由用户在模型匿名的前提下对模型效果进行打分,颇受业内认可,已经成为 OpenAI、Anthropic、Google、Meta 等国际大厂的大模型竞技场。比如在 OpenAI 正式发布 GPT-4o 之前,其便化名“gpt2-chatbot”现身 LMSYS Chatbot Arena,经过用户匿名实测,排名直超 GPT-4 Turbo、Gemini 1.5 Pro 等。

在 Chatbot Arena 的评测体系中,用户不知道当前具体使用哪个模型,而是先在聊天框里输入 Prompt,根据模型的回答质量满意度进行投票,投票后会显示出所用模型来。使用这种评价体系最大优势在于其公平性,评审者只能根据模型的性能表现进行打分,避免了“先入为主”的偏见,让真正优秀的模型脱颖而出。

然而在大模型评测中,这种匿名测试还存在一些问题,比如模型的设计往往与其目标应用场景密切相关,而使用通用的 Prompt ,不能很好地表现出模型在其特定领域的能力。并且,大模型对 Prompt 很敏感,有时候仅仅是修改一下 Prompt ,对大模型输出结果的评分就会出现超过 10% 的扰动。

基于这样的需求及痛点问题,扣子模型广场应运而生。其不仅如 LMSYS Chatbot Arena 一般支持模型随机、匿名地对决,而且还支持基于 Bot 进行对战 PK,开发者可以很方便地使用对战功能,更直观地了解模型最擅长的能力。


扣子模型广场:告别模型选择困难症

如前文所说,现阶段评估报告能从一定程度上反映一个模型的强弱,但对于一个 AI 原生应用的开发者来说——特别是不怎么了解大模型的人,这些测试结果可能很难让他们做出决策。在这些评估报告的数据表现上,所有的大模型能力都很强。但在真实的应用上表现如何?却是非常难以评估的。为了让 AI 原生应用开发者找到合适自己的大模型,「扣子」给出了它的答案。

首先「扣子」会将很多的大模型接入到平台中,开发者只需要点点鼠标就能轻松切换模型,不需要进行二次开发,几乎没有迁移成本,让开发者能够以最低成本使用任何大模型。这也让开发者没有了后顾之忧。

其次,在「扣子」 的模型广场中,也引入了匿名模型对战功能。开发者也是点点鼠标就能运行一次实时对战,轻松看到不同模型在基础能力上、特定场景中的区别,也方便对模型响应速度与稳定进行对比,从而选出最佳的模型。

基于对模型通用能力、细分领域的表现等方向,模型广场提供了三种模型对战的模式:

纯模型对战:这是一个和 Chatbot Arena 类似的能力,针对模型通用能力的一个评分,在运行过程中,不会受到 Bot 内置的 Prompt 、任务流等的影响。用户在匿名的情况下,系统随机选择两个模型展开对决。用户可以与匿名模型进行多轮对话,最后,用户根据模型的性能表现进行打分。当然,这种对战模式主要是用于评价大模型的基础能力,用户能够比较直观地感受到模型之间的差异。

指定 Bot 对战:这种方式适用于评测模型在指定细分领域的能力,这应该也是普通开发者最喜欢的一种方式。用户可以选择感兴趣的 Bot 或者是刚开发完成的 Bot,启动对战时,「扣子」会随机选取两个匿名模型,根据 Bot 配置的 Prompt 、任务流、知识库等信息进行回答。用这种方式,可以轻松的选出哪个模型适合你的 Bot 。

随机 Bot 对战:除了模型基础能力与指定细分领域的能力外,模型在一些通用能力如技能和知识调用也是重点关注的一环,在此对战模式下「扣子」会在平台上线的 Bot 中随机选择一个 Bot,并随机选择两个匿名模型进行对战,以达到评测模型在任意业务场景下真实运行的能力。

扣子模型广场通过接入足够多的模型,降低模型切换成本和通过模型对战选取最优模型,帮开发者解决模型选择的难题。在模型对战中,也让大模型厂商知道自家模型的能力边界,促进大模型厂商定点解决具体问题,更好地推动整个大模型生态的发展。


未来,人人都能开发智能体

我们都知道,要开发一个智能体,模型非常重要,但智能体需要的记忆、需要外部知识源、需要的很多工具也很重要。

笔者发现,在扣子 AI 应用开发平台中, 不仅解决模型选择的难题,同时为用户们提供了很多有用的工具,无论是否有编程基础,都可以在扣子上快速搭建基于大模型的各类 Bot。在首页的 Bot 商店中,可以看到,目前平台上已经非常丰富的 Bot 可供大家使用。

作为开发者的我们,当时是想实现一个自己的 Bot,为其他人提供帮助。当然,开发者最关心的整个应用生态。在扣子平台中为 Bot 提供了插件扩展的能力、知识库存储的能力,还有记忆能力。扣子同时还是一个社区,平台中还有插件商店、工作流商店。在创建 Bot 时,并不是所有的能力都需要自己去做,可以在商店中选择你需要的能力,快速构建你的智能体。

当前,「扣子」与 Intel 联合推出了主题 Bot 征集活动 —— 扣子 AI 工坊( Coze AI Factory),涵盖图文创作、实用工具、互动创意三大赛道,零基础、超低门槛。笔者认为,这有助于让人人都能成为开发者,只要你有想法,就能参与到 AI 智能体的创建中,在这波 AI 浪潮下,感受 AI 的魅力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
冬奥冠军“战袍走光”惹争议,耐克把FILA打蒙了

冬奥冠军“战袍走光”惹争议,耐克把FILA打蒙了

首席品牌观察
2026-02-24 16:41:56
马筱梅发声!新娃不涉及家产之争,落户北京,箖儿玥儿上学不变

马筱梅发声!新娃不涉及家产之争,落户北京,箖儿玥儿上学不变

林子说事
2026-02-25 07:44:48
离婚才几年,杨颖这是怎么了?

离婚才几年,杨颖这是怎么了?

文刀万
2026-02-24 17:40:03
断香火大潮来了!大批家庭,将倒在80、90后手里。

断香火大潮来了!大批家庭,将倒在80、90后手里。

黑哥讲现代史
2026-02-24 16:29:47
天崩开局的《镖人》,帮吴京扳回一城

天崩开局的《镖人》,帮吴京扳回一城

金错刀
2026-02-22 16:21:55
28岁北京独子王荻娶50岁德国妻子,宁断香火也要成婚,现状太意外

28岁北京独子王荻娶50岁德国妻子,宁断香火也要成婚,现状太意外

谈史论天地
2026-02-25 06:53:06
德约2天2次力挺谷爱凌!转发22岁中国冠军演讲:有付出才能够自信

德约2天2次力挺谷爱凌!转发22岁中国冠军演讲:有付出才能够自信

风过乡
2026-02-25 07:54:21
“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

北纬的咖啡豆
2026-02-20 19:12:17
“茶几”正在退出中国家庭,学广东人这样做,实用性让人大开眼界

“茶几”正在退出中国家庭,学广东人这样做,实用性让人大开眼界

室内设计师有料儿
2026-02-19 11:17:18
安史之乱八年里,叛军为何死战不降?不是安禄山想反,他也很无奈

安史之乱八年里,叛军为何死战不降?不是安禄山想反,他也很无奈

今日养生之道
2026-02-22 16:18:50
升级版的仙人跳,比戴绿帽子还憋屈

升级版的仙人跳,比戴绿帽子还憋屈

霹雳炮
2026-02-24 22:53:34
巴拿马政府强行进入并接管港口,李嘉诚旗下长和回应:相关行动不合法,构成严重风险,将研究所有可行途径

巴拿马政府强行进入并接管港口,李嘉诚旗下长和回应:相关行动不合法,构成严重风险,将研究所有可行途径

都市快报橙柿互动
2026-02-24 14:12:41
小伙娶48岁大妈,新婚第二天大妈赖床不起,小伙掀开被子愣住了

小伙娶48岁大妈,新婚第二天大妈赖床不起,小伙掀开被子愣住了

一根香烟的少妇
2026-02-23 15:00:03
纵队司令员顶撞军区司令员,朱德都劝不动,刘伯承:让陈赓管管他

纵队司令员顶撞军区司令员,朱德都劝不动,刘伯承:让陈赓管管他

大运河时空
2026-02-24 08:15:03
限时价16.19万元/双色车身设计 天籁·鸿蒙座舱S380大师版上市

限时价16.19万元/双色车身设计 天籁·鸿蒙座舱S380大师版上市

太平洋汽车
2026-02-24 17:12:57
国米耻辱之夜显露两大症结:谁是真正罪魁? 队长惹下巨大争议

国米耻辱之夜显露两大症结:谁是真正罪魁? 队长惹下巨大争议

国际足球冷雪
2026-02-25 08:14:13
11岁男童在福建一服务区被撞身亡!肇事新能源汽车,竟成舆论焦点

11岁男童在福建一服务区被撞身亡!肇事新能源汽车,竟成舆论焦点

火山詩话
2026-02-24 19:18:04
从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

旧书卷里的长安
2026-02-22 00:08:58
已婚也逃不过!在爱泼斯坦的安排下,比尔盖茨和安妮·海瑟薇会面

已婚也逃不过!在爱泼斯坦的安排下,比尔盖茨和安妮·海瑟薇会面

风流女汉
2026-02-25 07:25:20
大米江湖的暗战:那些超市里的“陷阱米”,正在偷走你的钱和健康

大米江湖的暗战:那些超市里的“陷阱米”,正在偷走你的钱和健康

富贵说
2026-01-18 20:36:10
2026-02-25 09:35:00
CSDN incentive-icons
CSDN
成就一亿技术人
26332文章数 242234关注度
往期回顾 全部

科技要闻

苹果MacBook Pro要加触摸屏了,还带灵动岛

头条要闻

87岁上海老人和59岁保姆结婚 称房子被卖遭多次打砸

头条要闻

87岁上海老人和59岁保姆结婚 称房子被卖遭多次打砸

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

艺术
数码
健康
本地
公开课

艺术要闻

如果吴清源重生,他会如何与柯洁较量?

数码要闻

299元媲美千元 雷柏VT3s Air MAX鼠标发布:仅39g右手控杀王牌

转头就晕的耳石症,能开车上班吗?

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版