网易首页 > 网易号 > 正文 申请入驻

刺激!扣子模型广场上线,实时 PK 高下立见

0
分享至

倒计时一个月,我们将迎来巴黎奥运会盛大开幕,届时全球将见证各国运动健儿们在赛场上的巅峰对决。如果说奥运会是挑战体能极限的竞技场,那么字节跳动最新推出的「扣子模型广场」便是模型届的「竞技场」。

扣子(coze.cn)是“无代码” AI 应用开发平台,无论你是否懂编程知识,零基础也能轻松在扣子上快速搭建基于大模型的 Bot 应用,还能将 Bot 发布到豆包、飞书、微信客服、微信公众号等平台给大家使用。

这么说吧,现在我们在扣子平台开发一款智能体 Bot 简直是“分分钟”的事,但是在选择哪款大模型做支撑时却十分为难,因为扣子已接入豆包、通义千问、智谱、MiniMax、Moonshot 、baichuan等多个国内主流大语言模型。那么我们该如何客观、准确地选择最适合自己应用的大模型?

6 月 13 日,由扣子联合 Intel 推出的 AI 工坊( Coze AI Factory )活动火热开启,笔者发现伴随这个活动,扣子还重磅推出一个“大杀器”——扣子模型广场。据悉,扣子模型广场采用匿名、随机、对战的测评模式,提供指定 Bot 对战、随机 Bot 对战、纯模型对战三大形式,系统随机匹配大模型,先隐去背后的模型信息,由用户随机出题,两个模型实时 PK,用户根据模型的实际表现来评判,经投票后才会揭秘具体的模型,孰优孰劣一目了然。

太刺激了吧!像不像我们开发者常说的“Talk is cheap, show me the code”?通过扣子模型广场,开发者可以直观了解模型的优缺点,选择最适合自己的模型来落地 AI 应用。

图:模型广场

1

刺激!

模型实时 PK,高下立见

近年来,国内外大模型如雨后春笋般涌现,各类榜单测评层出不穷,用户眼花缭乱。但这些评分每一项代表什么?是否值得信任?业内没有统一标准。

一些传统评估数据集可能还会遭遇数据污染问题(模型在训练时期已接触过测试集的部分数据),导致用户对基准测试的可信赖度打上问号。尽管业内提出让大模型来做评估,然而这种方式受任务的难度影响,并且运行成本较高。

相比以上方法,人类评估是目前较可靠的方式,但如果仅依靠专家来打分,收集时间长,费用也较高。因此,国际开放研究组织 LMSYS Org 创新推出大模型竞技场 Chatbot Arena,通过众包人类评估的方式来进行大模型匿名评测,即用户输入问题,两个匿名大模型同时返回结果,用户对其表现进行投票。目前,Chatbot Arena 已成为海外具有公信力的大模型竞技场之一,该竞技场主要以模型对战的形式来 PK。

实际上,开发者在落地 AI 应用时,不仅关心各模型本身的核心能力,更关注其在特定细分领域与实际业务场景中的表现。当这些模型融入各自的 Bot 应用时,实际表现如何?哪个模型最适用?如何以低成本,公开、透明、客观的方式来检验不同模型的实力?

扣子模型广场延用 Chatbot Arena 的模型匿名 PK 形式,又往应用方向延展,不仅可 PK 模型,还 PK 不同模型在特定应用下的效果。我们只要打开扣子主页(coze.cn),点击搜索-模型广场,便可以参与三种对战形式:

指定 Bot 对战

你可以选择一个感兴趣或自创的 Bot 进行模型对战,扣子将随机选取两个匿名模型,基于 Bot 的 Promt、工作流、知识库等能力配置回答你的问题。用户可以直观看到评测模型在指定细分领域的文本生成、技能和知识调用等能力。

随机 Bot 对战

点击“随机开始”按钮,扣子将从上架 Bot 中随机选择一个 Bot 进行模型对战,和指定 Bot 对战形式一样,随机选择两个匿名模型,基于 Bot 的 Promt、工作流、知识库等能力配置来回答问题。和前一种方式不同的是,用户可以观察评测模型在任意业务场景下的表现。

纯模型对战

用户无需指定任何 Bot,点击“纯模型对战”按钮,扣子随机选择两个模型来 PK。在这种形式下,模型不受用户配置 Promt、工作流等限制和影响,更倾向测试模型本身的能力。

有了模型一轮轮的 PK 数据,还有用户的真实投票,笔者猜测未来扣子会不会也整一个模型排行榜呢?

笔者在体验以上三种方式的过程中,发现其中的设计逻辑很符合我们的开发思维。用户可能不懂什么是大模型,不理解 A 模型与 B 模型的区别,更看不懂高大上的测评数据。而用户可先通过“指定 Bot 对战”形式来测评不同模型在自家 Bot 的表现,随后通过“随机 Bot 对战”形式来了解模型在更多业务场景的表现几何,最后通过“纯模型对战”方式来 PK 模型本身的硬实力,各模型优劣立现,高下立判。

如此一来,扣子模型广场提供一个公开透明的平台,让任何人都能免费体验国内主流大模型。用户所见即所得,直观看到哪个模型较适合自己的应用,为选型提供有力的依据。在笔者看来,这是其他平台无法比拟的,是扣子模型广场最大的优势。可以说,扣子模型广场已是 Next Level。据观察,扣子目前已经支持了豆包、通义千问、智谱、MiniMax、Moonshot 、Baichuan等国内主流大语言模型,相信后续会支持更多选项。

2

避免“劣币逐良币”

打造健康发展的大模型生态

通过扣子模型广场,吸引更多用户来参与模型 PK,经由用户真实票选的结果,相信比厂家各类营销更有参考性。从笔者来看,扣子模型广场能为开发者和企业带来以下三大价值和帮助:

一是透明公正,高下立见。扣子模型广场汇集当前多款国内主流大模型,提供多种创新竞技形式,以匿名形式有效消除用户的主观意识和个人偏好,让用户将注意力聚焦大模型能力本身,提供客观的模型评测结果。

大模型技术发展迅速,开发者如何将最新技术落地应用?通过扣子模型广场,用户无需复杂的访问权限,便可直接体验到国内主流大模型的能力,加快应用开发。

二是激励行业创新,避免“劣币驱逐良币”。大模型受到广泛关注后,伴随而来的各类营销此起彼伏,各类“领先”的口号比比皆是,各种“跑分刷榜”让人眼花缭乱,用户却无法全面、客观地了解大模型的真实水平,可能无法挑选最适合的模型,这将不利于行业发展,可能会出现“劣币驱逐良币”的情况。

扣子模型广场类似模型届的“奥运会”,提供统一对战环境,真实用户来充当评委,实时体验不同模型的差异,为其挑选合适的模型提供依据。

对厂商而言,在扣子模型广场匿名、实时反馈的环境里,无异揭开大模型产业的营销“面具”,促使行业聚焦技术创新,迭代升级产品,从而为用户创造更优质的体验。

三是有助于构建开放、公平、良性的大模型生态。扣子模型广场不仅激发厂商创新,还让用户以最快的速度、最经济的成本来快速验证模型,进一步加快落地 AI 应用速度,让 AI 普惠千行百业,助力行业构建良性发展的大模型生态体系。

3

降低开发门槛

人人都是 AI 应用开发者

据 IDC 发布《2024 AIGC应用层十大趋势白皮书》预测,2024 年全球将涌现出超过 5 亿个新应用,相当于过去 40 年间出现的应用数总和,智能化应用将呈现爆发式增长。

如果仅凭专业程序员来开发这些应用,是远远无法满足需求的。扣子以“无代码”的形式大大降低 AI 开发门槛,连小朋友也可以搭建复杂 Bot。只要有想象力,扣子让人人都能成为“开发者”。

更进一步,扣子提供插件集成、自定义插件开发、知识库管理、数据库记忆、工作流设计等核心功能,来满足用户 AI Bot 开发需求。目前扣子已上线 Bot 商店、插件商店、工作流商店等,让用户更加灵活、自主地挑选适合的工具来创新应用。此外,扣子支持文字、图片、语音、视频、GUI 卡片等多种模态的混合交互,让 Bot 更有温度,更融入我们的工作和生活。

基于扣子,用户零基础开始 AI 应用开发,快速验证模型能力,还可将应用分发到不同渠道。如此一来,扣子将 AI 应用开发、运营成本一降再降,并让用户聚焦 AI 应用创意实现。相信在扣子的加持下,未来将会诞生越来越多的 AI 应用开发者。

最后,附上笔者前文里提到的「 AI 工坊」主题 Bot 征集活动,这是一个很好的展示 AI 应用创新成果的舞台,感兴趣的读者可以一起参加。

更多内容,点击下方关注:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年小区里出现很多“假穷人”,他们放着几十万的车不开,骑着电驴去上班;取快递的次数也少了;还拿出几年前的衣服来穿

今年小区里出现很多“假穷人”,他们放着几十万的车不开,骑着电驴去上班;取快递的次数也少了;还拿出几年前的衣服来穿

背包旅行
2026-06-02 11:48:18
6月4日精选热点:光模块这类原材料持续紧缺  两大低位龙头要起爆

6月4日精选热点:光模块这类原材料持续紧缺 两大低位龙头要起爆

元芳说投资
2026-06-03 20:39:53
《主角》让秦腔出圈?你太高看《主角》了

《主角》让秦腔出圈?你太高看《主角》了

合赞历史
2026-06-03 14:28:47
善恶终有报!放弃国籍、贬低中国,68岁瘫在轮椅的张铁林活成笑话

善恶终有报!放弃国籍、贬低中国,68岁瘫在轮椅的张铁林活成笑话

混沌录
2026-06-01 23:24:09
火箭一夜4消息!卖申京换切特+退出字母哥争夺战?8换2KD评分更新

火箭一夜4消息!卖申京换切特+退出字母哥争夺战?8换2KD评分更新

锅子篮球
2026-06-03 14:03:46
男篮2将打服FMP俱乐部主帅!发布会公开招募:希望徐昕王俊杰能来

男篮2将打服FMP俱乐部主帅!发布会公开招募:希望徐昕王俊杰能来

篮球资讯达人
2026-06-03 22:54:19
放不下的顿巴斯,回不去的体面

放不下的顿巴斯,回不去的体面

秋月独朗
2026-06-03 14:14:30
副教授秦秀宇突然离世,年仅39岁!

副教授秦秀宇突然离世,年仅39岁!

都市快报橙柿互动
2026-06-03 20:27:10
NBA总决赛G1开战前,文班亚马为马刺队友赠送了一份独特的礼物

NBA总决赛G1开战前,文班亚马为马刺队友赠送了一份独特的礼物

夜白侃球
2026-06-03 10:57:38
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
懒得装了!窦骁靠央视《主角》逆风翻盘,何超莲反常举动引热议

懒得装了!窦骁靠央视《主角》逆风翻盘,何超莲反常举动引热议

麦芽是个小趴菜
2026-06-02 16:37:34
中方劝告失效,李在明我行我素,向世界宣告,韩国加快引进核潜艇

中方劝告失效,李在明我行我素,向世界宣告,韩国加快引进核潜艇

铁锤简科
2026-05-30 12:42:24
马刺尼克斯谁能夺得NBA总冠军?巴克利、苏群、杨毅给出了预测

马刺尼克斯谁能夺得NBA总冠军?巴克利、苏群、杨毅给出了预测

篮球大视野
2026-06-03 08:58:53
“翻墙”就是犯法,这些常识你必须知道

“翻墙”就是犯法,这些常识你必须知道

智慧仪陇
2026-05-29 17:30:00
为什么宋朝皇帝不穿龙袍?

为什么宋朝皇帝不穿龙袍?

长风文史
2026-06-01 15:12:29
大洗牌!深圳关内2大老牌商场将关停,4 座万象落地关外,网友:时代变了!

大洗牌!深圳关内2大老牌商场将关停,4 座万象落地关外,网友:时代变了!

深圳买房计划
2026-06-03 22:10:54
阿媒:阿根廷队告知布恩迪亚推迟休假并保持训练

阿媒:阿根廷队告知布恩迪亚推迟休假并保持训练

懂球帝
2026-06-03 21:25:10
美专家:中国不要执迷不悟了,如果继续研发芯片,将遇到经济危机

美专家:中国不要执迷不悟了,如果继续研发芯片,将遇到经济危机

混沌录
2026-06-03 23:37:06
七战全胜,狂轰21球,失2球,中国足球小将夺冠!赛后,董路发言

七战全胜,狂轰21球,失2球,中国足球小将夺冠!赛后,董路发言

开成运动会
2026-06-03 00:56:14
浙江一男子买不起学区房,竟花300元买“房产证”送儿子进重点小学,4年后该男子被发现,网友:父爱真伟大

浙江一男子买不起学区房,竟花300元买“房产证”送儿子进重点小学,4年后该男子被发现,网友:父爱真伟大

笨鸟摘文
2026-06-02 21:54:33
2026-06-04 00:12:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7333文章数 20755关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

教育
数码
健康
房产
本地

教育要闻

高考减少45万人|“带入考场即构成作弊”!高考安检新变化,多地提醒

数码要闻

IDC预测2026年PC出货量下滑11.3% MacBook Neo逆势增长

违规干细胞抗衰美容,为何肆无忌惮

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

本地新闻

用杨柳青年画的方式,打开天津

无障碍浏览 进入关怀版