网易首页 > 网易号 > 正文 申请入驻

刺激!扣子模型广场上线,实时 PK 高下立见

0
分享至

倒计时一个月,我们将迎来巴黎奥运会盛大开幕,届时全球将见证各国运动健儿们在赛场上的巅峰对决。如果说奥运会是挑战体能极限的竞技场,那么字节跳动最新推出的「扣子模型广场」便是模型届的「竞技场」。

扣子(coze.cn)是“无代码” AI 应用开发平台,无论你是否懂编程知识,零基础也能轻松在扣子上快速搭建基于大模型的 Bot 应用,还能将 Bot 发布到豆包、飞书、微信客服、微信公众号等平台给大家使用。

这么说吧,现在我们在扣子平台开发一款智能体 Bot 简直是“分分钟”的事,但是在选择哪款大模型做支撑时却十分为难,因为扣子已接入豆包、通义千问、智谱、MiniMax、Moonshot 、baichuan等多个国内主流大语言模型。那么我们该如何客观、准确地选择最适合自己应用的大模型?

6 月 13 日,由扣子联合 Intel 推出的 AI 工坊( Coze AI Factory )活动火热开启,笔者发现伴随这个活动,扣子还重磅推出一个“大杀器”——扣子模型广场。据悉,扣子模型广场采用匿名、随机、对战的测评模式,提供指定 Bot 对战、随机 Bot 对战、纯模型对战三大形式,系统随机匹配大模型,先隐去背后的模型信息,由用户随机出题,两个模型实时 PK,用户根据模型的实际表现来评判,经投票后才会揭秘具体的模型,孰优孰劣一目了然。

太刺激了吧!像不像我们开发者常说的“Talk is cheap, show me the code”?通过扣子模型广场,开发者可以直观了解模型的优缺点,选择最适合自己的模型来落地 AI 应用。

图:模型广场

1

刺激!

模型实时 PK,高下立见

近年来,国内外大模型如雨后春笋般涌现,各类榜单测评层出不穷,用户眼花缭乱。但这些评分每一项代表什么?是否值得信任?业内没有统一标准。

一些传统评估数据集可能还会遭遇数据污染问题(模型在训练时期已接触过测试集的部分数据),导致用户对基准测试的可信赖度打上问号。尽管业内提出让大模型来做评估,然而这种方式受任务的难度影响,并且运行成本较高。

相比以上方法,人类评估是目前较可靠的方式,但如果仅依靠专家来打分,收集时间长,费用也较高。因此,国际开放研究组织 LMSYS Org 创新推出大模型竞技场 Chatbot Arena,通过众包人类评估的方式来进行大模型匿名评测,即用户输入问题,两个匿名大模型同时返回结果,用户对其表现进行投票。目前,Chatbot Arena 已成为海外具有公信力的大模型竞技场之一,该竞技场主要以模型对战的形式来 PK。

实际上,开发者在落地 AI 应用时,不仅关心各模型本身的核心能力,更关注其在特定细分领域与实际业务场景中的表现。当这些模型融入各自的 Bot 应用时,实际表现如何?哪个模型最适用?如何以低成本,公开、透明、客观的方式来检验不同模型的实力?

扣子模型广场延用 Chatbot Arena 的模型匿名 PK 形式,又往应用方向延展,不仅可 PK 模型,还 PK 不同模型在特定应用下的效果。我们只要打开扣子主页(coze.cn),点击搜索-模型广场,便可以参与三种对战形式:

指定 Bot 对战

你可以选择一个感兴趣或自创的 Bot 进行模型对战,扣子将随机选取两个匿名模型,基于 Bot 的 Promt、工作流、知识库等能力配置回答你的问题。用户可以直观看到评测模型在指定细分领域的文本生成、技能和知识调用等能力。

随机 Bot 对战

点击“随机开始”按钮,扣子将从上架 Bot 中随机选择一个 Bot 进行模型对战,和指定 Bot 对战形式一样,随机选择两个匿名模型,基于 Bot 的 Promt、工作流、知识库等能力配置来回答问题。和前一种方式不同的是,用户可以观察评测模型在任意业务场景下的表现。

纯模型对战

用户无需指定任何 Bot,点击“纯模型对战”按钮,扣子随机选择两个模型来 PK。在这种形式下,模型不受用户配置 Promt、工作流等限制和影响,更倾向测试模型本身的能力。

有了模型一轮轮的 PK 数据,还有用户的真实投票,笔者猜测未来扣子会不会也整一个模型排行榜呢?

笔者在体验以上三种方式的过程中,发现其中的设计逻辑很符合我们的开发思维。用户可能不懂什么是大模型,不理解 A 模型与 B 模型的区别,更看不懂高大上的测评数据。而用户可先通过“指定 Bot 对战”形式来测评不同模型在自家 Bot 的表现,随后通过“随机 Bot 对战”形式来了解模型在更多业务场景的表现几何,最后通过“纯模型对战”方式来 PK 模型本身的硬实力,各模型优劣立现,高下立判。

如此一来,扣子模型广场提供一个公开透明的平台,让任何人都能免费体验国内主流大模型。用户所见即所得,直观看到哪个模型较适合自己的应用,为选型提供有力的依据。在笔者看来,这是其他平台无法比拟的,是扣子模型广场最大的优势。可以说,扣子模型广场已是 Next Level。据观察,扣子目前已经支持了豆包、通义千问、智谱、MiniMax、Moonshot 、Baichuan等国内主流大语言模型,相信后续会支持更多选项。

2

避免“劣币逐良币”

打造健康发展的大模型生态

通过扣子模型广场,吸引更多用户来参与模型 PK,经由用户真实票选的结果,相信比厂家各类营销更有参考性。从笔者来看,扣子模型广场能为开发者和企业带来以下三大价值和帮助:

一是透明公正,高下立见。扣子模型广场汇集当前多款国内主流大模型,提供多种创新竞技形式,以匿名形式有效消除用户的主观意识和个人偏好,让用户将注意力聚焦大模型能力本身,提供客观的模型评测结果。

大模型技术发展迅速,开发者如何将最新技术落地应用?通过扣子模型广场,用户无需复杂的访问权限,便可直接体验到国内主流大模型的能力,加快应用开发。

二是激励行业创新,避免“劣币驱逐良币”。大模型受到广泛关注后,伴随而来的各类营销此起彼伏,各类“领先”的口号比比皆是,各种“跑分刷榜”让人眼花缭乱,用户却无法全面、客观地了解大模型的真实水平,可能无法挑选最适合的模型,这将不利于行业发展,可能会出现“劣币驱逐良币”的情况。

扣子模型广场类似模型届的“奥运会”,提供统一对战环境,真实用户来充当评委,实时体验不同模型的差异,为其挑选合适的模型提供依据。

对厂商而言,在扣子模型广场匿名、实时反馈的环境里,无异揭开大模型产业的营销“面具”,促使行业聚焦技术创新,迭代升级产品,从而为用户创造更优质的体验。

三是有助于构建开放、公平、良性的大模型生态。扣子模型广场不仅激发厂商创新,还让用户以最快的速度、最经济的成本来快速验证模型,进一步加快落地 AI 应用速度,让 AI 普惠千行百业,助力行业构建良性发展的大模型生态体系。

3

降低开发门槛

人人都是 AI 应用开发者

据 IDC 发布《2024 AIGC应用层十大趋势白皮书》预测,2024 年全球将涌现出超过 5 亿个新应用,相当于过去 40 年间出现的应用数总和,智能化应用将呈现爆发式增长。

如果仅凭专业程序员来开发这些应用,是远远无法满足需求的。扣子以“无代码”的形式大大降低 AI 开发门槛,连小朋友也可以搭建复杂 Bot。只要有想象力,扣子让人人都能成为“开发者”。

更进一步,扣子提供插件集成、自定义插件开发、知识库管理、数据库记忆、工作流设计等核心功能,来满足用户 AI Bot 开发需求。目前扣子已上线 Bot 商店、插件商店、工作流商店等,让用户更加灵活、自主地挑选适合的工具来创新应用。此外,扣子支持文字、图片、语音、视频、GUI 卡片等多种模态的混合交互,让 Bot 更有温度,更融入我们的工作和生活。

基于扣子,用户零基础开始 AI 应用开发,快速验证模型能力,还可将应用分发到不同渠道。如此一来,扣子将 AI 应用开发、运营成本一降再降,并让用户聚焦 AI 应用创意实现。相信在扣子的加持下,未来将会诞生越来越多的 AI 应用开发者。

最后,附上笔者前文里提到的「 AI 工坊」主题 Bot 征集活动,这是一个很好的展示 AI 应用创新成果的舞台,感兴趣的读者可以一起参加。

更多内容,点击下方关注:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:周二夜晚传来1个核弹级利好!周三很可能会迎史诗级别大行情?

A股:周二夜晚传来1个核弹级利好!周三很可能会迎史诗级别大行情?

股市皆大事
2026-01-20 19:45:50
不知道大家有没有这种感觉,
孙颖莎其实才是国乒里最狠的那个人

不知道大家有没有这种感觉, 孙颖莎其实才是国乒里最狠的那个人

小光侃娱乐
2025-12-28 10:00:08
“迷人”的愚蠢——反智盛行的五大原因

“迷人”的愚蠢——反智盛行的五大原因

听哲学
2026-01-18 21:44:12
对后市行情的研判

对后市行情的研判

股市渔夫
2026-01-20 18:13:39
调整!1月20日晚间央视直播亚洲杯有变,国足冲决赛,附赛程!

调整!1月20日晚间央视直播亚洲杯有变,国足冲决赛,附赛程!

皮皮观天下
2026-01-20 16:37:05
弘一法师:人一旦死了,生前的衣服,睡过的床......都会被处理掉

弘一法师:人一旦死了,生前的衣服,睡过的床......都会被处理掉

诗词中国
2025-12-04 19:18:40
老道士揭秘:家中这三样东西消失,一定是被人借运了!千万要小心

老道士揭秘:家中这三样东西消失,一定是被人借运了!千万要小心

古怪奇谈录
2026-01-05 11:32:51
谴责伊朗,便是白左叙事逻辑的终极崩塌

谴责伊朗,便是白左叙事逻辑的终极崩塌

壹家言
2026-01-18 11:42:28
德国从格陵兰岛闪电撤兵闹笑话

德国从格陵兰岛闪电撤兵闹笑话

参考消息
2026-01-19 18:50:10
单场25分+13板+100%命中率有多难?现役仅6人做到,一超巨砍40+30

单场25分+13板+100%命中率有多难?现役仅6人做到,一超巨砍40+30

麦子的篮球故事
2026-01-20 19:13:35
上海小区真实事件:一楼奶奶同意交电梯费,结果整栋楼早高峰全“卡壳”

上海小区真实事件:一楼奶奶同意交电梯费,结果整栋楼早高峰全“卡壳”

古装影视解说阿凶
2026-01-20 14:44:23
向华炎追悼会曝光!向华强夫妇现身,大佬们亮相,4000多江湖兄弟

向华炎追悼会曝光!向华强夫妇现身,大佬们亮相,4000多江湖兄弟

以茶带书
2026-01-20 16:18:49
冯德莱恩:丹麦及格陵兰岛领土主权和完整不容谈判

冯德莱恩:丹麦及格陵兰岛领土主权和完整不容谈判

新快报新闻
2026-01-20 19:23:09
大风新闻记者现场直击北京嫣然天使儿童医院线下捐款;院方:捐款人太多,线下暂停 ,感谢大家的爱心

大风新闻记者现场直击北京嫣然天使儿童医院线下捐款;院方:捐款人太多,线下暂停 ,感谢大家的爱心

大风新闻
2026-01-20 15:21:05
尺度大到让人脸红心跳的5部限制级电影,每一部都值得推荐

尺度大到让人脸红心跳的5部限制级电影,每一部都值得推荐

小微看电影
2026-01-20 09:20:03
1公斤最高299元!水贝市场上线投资铜条,有商家称每日售出200条,回收价却腰斩

1公斤最高299元!水贝市场上线投资铜条,有商家称每日售出200条,回收价却腰斩

红星资本局
2026-01-19 20:06:09
京东集团宣布成立京东美术馆,位于深圳湾超级总部基地

京东集团宣布成立京东美术馆,位于深圳湾超级总部基地

南方都市报
2026-01-20 13:46:09
国外的草莓简直就是萝卜伪装的

国外的草莓简直就是萝卜伪装的

穷游网
2026-01-19 18:24:34
美股大型科技股盘前普跌

美股大型科技股盘前普跌

财联社
2026-01-20 17:10:09
法国人没想到,到手的胜利,被樊振东死里逃生,抢六绝杀狠狠打脸

法国人没想到,到手的胜利,被樊振东死里逃生,抢六绝杀狠狠打脸

揽星河的笔记
2026-01-19 19:24:37
2026-01-20 20:23:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7049文章数 20725关注度
往期回顾 全部

科技要闻

收藏|这可能是CES2026最清醒一份复盘

头条要闻

12岁女孩被3名男子多次性侵 当地警方不予立案:自愿的

头条要闻

12岁女孩被3名男子多次性侵 当地警方不予立案:自愿的

体育要闻

新的时代!东契奇首夺全明星票王 詹姆斯落选首发

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

李迅雷:2026买房不如租房

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

亲子
数码
健康
家居
军事航空

亲子要闻

公婆接二老来农村大院,带现成菜大家都爱吃,龙宝会说的越来越多

数码要闻

AMD Zen被曝高危漏洞!不好意思 早就低调搞定了

血常规3项异常,是身体警报!

家居要闻

隽永之章 清雅无尘

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版