网易首页 > 网易号 > 正文 申请入驻

国产大模型打擂台!扣子模型广场亮相,三种对战模式、匿名投票决胜负

0
分享至

智东西(公众号:zhidxcom
作者程茜
编辑漠影

看多了官方的大模型评测榜,全民参与票选的模型测评你见过吗?

智东西6月13日报道,昨天,扣子(coze.cn)重磅推出扣子模型广场,打造了在线大模型对比与评估系统。

简单来说,扣子模型广场就相当于大模型的竞技场,通过1V1的开发者匿名投票,让大模型决胜负,让开发者找到最适合自己需求的模型。

扣子模型广场的主页在匿名对战栏目有三种对战模式,包括指定Bot对战、随机Bot对战、纯模型对战。开发者可以与不同类型的Bot进行对话交互,根据其输出的完整内容进行投票。

在开发者做出投票之前,各个Bot背后的模型都处于未知状态,一旦模型被暴露,这一投票就被视为无效,主打公开、公正、公平。

同时,扣子联合Intel启动了主题Bot征集活动AI工坊,为更多Bot提供了创意碰撞的平台。

从Bot打造的全链路工具支撑,再到模型竞技场、主题Bot征集,扣子的生态逐渐壮大,正在为开发者提供共享知识、技能、资源平台的同时加速AI应用的落地。

一、模型竞技场!免费可用、先隐藏“战力”公开投票

想要打造出实用、好用的AI应用,其中一个必要条件就是:找到合适的模型,以此来确保应用的效率、准确性和可扩展性。那么,判断模型能力最直观的办法就是打PK。扣子模型广场就为模型对战搭建了“擂台”。

扣子平台上已经接入了豆包、通义千问、智谱AI、MiniMax、月之暗面、百川智能等国内知名的大语言模型,这些模型都可以参与PK。

模型广场的赛制简单明了:1v1 PK、匿名对战、公开投票竞选,其中提供了三种对战模式,随机对战、纯模型对战、指定Bot对战。指定Bot对战中,模型广场目前已经提供了信息分析与处理、知识应用、推理能力、编码能力、任务解决、生成创作、角色扮演类型的Bot。

具体的对战模式就是,Bot或者模型根据开发者提供的同一个问题“现场作答”,其中一个模型输出完整回复后,对话界面下方就会出现投票按钮。当然,在投票之前,这些Bot背后的模型都处于匿名状态,只有当投票结束后才会揭晓其背后的模型信息。

话不多说,先来实际体验一下。

假定我需要信息分析与处理能力强的模型,就可以点击“找工作就找我”Bot进行对战,左右两边的模型分别回答了“帮我找在北京的前端开发工程师的工作”这一问题。

可以看到,左侧模型率先完成回答,下方就会出现A表现更好、两个都好、两个都差、B表现更好四个选项。

当开发者做出选择后,就会显示两个Bot背后的模型。

与此同时,开发者点击分享还能直接看到有比拼结果、过程的长图,可以直观对比两个模型的输出内容。

经测试,即便是同一个Bot也不会出现同一个模型连续PK的情况。

还有一种对战模式是纯模型对战,在不指定任何Bot的情况下,系统会随机选择两个模型展开对决。

先拿最近被热议的高考作文来测试下。与Bot对战的模式类似,对话界面下方会出现四个投票选项,结果公示后呈现模型的具体信息。

这些测试、PK模式开发者均可以免费参与、打开即用,并且这三类对战模式的结果对于开发者而言各有不同。

指定Bot对战更为聚焦,开发者可以基于此评测模型在指定细分领域的文本生成、技能和知识调用能力;随机Bot对战面向的范围就更广,适用于任意场景的能力评测;纯模型对战因不受编排、工作流等配置的限制和影响,可以用来帮助开发者评测模型本身的文本生成等能力。

通过这类准确、自定义的对决模式,可以让开发者能更准确的明确模型最擅长的能力。在百模大战、千模大战硝烟仍在弥漫的当下,这对于开发者快速准确找到能满足自己需求的模型,开发出好用且实用的应用至关重要。

二、对决公开、公平、公正,一旦模型暴露投票无效

扣子模型广场真正让模型的能力对决摆到了台面上,摆到了每一个开发者面前。

当下,各大模型厂商近乎疯狂地打起了价格战,更是有厂商直接官宣部分模型免费,这无疑给开发者带来更多的选择空间,使其开发成本降低。

但面对丰富多元的模型,开发者该怎么选,或者说如何选才能最快找到更符合自己应用需求的模型?

目前在评测大模型性能方面,各式各样的评测榜单成为开发者快速进行技术选型的工作,开发者可以基于不同模型在标准测试集上的性能比较,找到细分场景的模型“王者”。

但实际上,这些大模型评测榜单的测试基准大致相同,虽然有一定的参考性但无法真正在实际应用场景中实现能力的PK,因此开发者还需费时费力去测试体验,从而找到更贴合其细分应用场景的模型。

事实上,开发者在选择模型时,应用场景的特定需求、数据集的特点、资源限制等诸多因素都对应用的开发具有决定性作用。

在此背景下,扣子模型广场的对决结果唯一基准就是其生成的内容,这也使得结果更为客观。同时,综合众多开发者的共同选择,接受多元问题考验的模型能力比拼就更具说服力。

此外,扣子模型广场的对决规则中可以看出,为了保证模型评测的公平性,其对不同模式的模型参数配置策略、投票规则、对战限制等进行了明确要求。

值得注意的是,模型对战时,如果对话过程中已暴露或者试图暴露模型的身份,这一对决投票就会被视为无效投票。

对于AI开发者生态而言,扣子模型广场可以帮助他们在有限的资源中更高效便捷的进行开发。

三、技术平台+创意聚集区,扣子生态正茁壮成长

可以看出,以扣子平台为核心的AI开发者生态的边界正在不断外延。

AI应用开发平台扣子自今年2月发布以来,就让开发者的应用开发门槛一降再降。

首先,无论用户是否有编程基础都可以在扣子上快速搭建基于大模型的Bot。比如扣子的Home Bot就可以通过对话交互的方式一句话创建Bot,同时用户还可以直接搜索调用不同的Bot与之对话。

其次,为扩展Bot的各项技能,扣子中提供了超过60款内置插件和支持创建自定义插件,以此来扩展Bot的能力边界。

在工作流功能中,扣子还可以被用来处理复杂的逻辑判断以及有较高稳定性要求的任务流,用户通过简单的拖拉拽就可以快速搭建一个工作流。

第三,为了让Bot拥有更加个性化的知识储备,扣子提供了简单易用的知识库功能来管理和存储数据,使得Bot可以与自己的数据进行交互,同时支持文本、表格等多种形式的知识存储。

第四,在长期记忆方面,扣子提供了方便AI交互的数据库记忆能力。

最后就是交互体验,扣子支持配置开场白、用户问题建议、快捷指令、背景图片、语音等,还支持卡片格式输出。

在Bot搭建完成后,扣子还可以帮助用户将其一键发布到豆包、飞书等平台。目前,饮食、运动、金融、招聘等行业都已经依托于扣子的能力构建了Bot,如招商银行的推荐餐饮优惠门店的“掌上生活优惠”Bot、分析市场行情的“财富看点”Bot;猎聘“找工作助手”Bot等。

这样全流程的Bot构建体系,使得大模型的相关应用开发边界逐渐外延,深入千行百业。如今,模型竞技广场的发布,让Bot在解决人们实际需求层面的价值更加直观。

与此同时,扣子还联合Intel推出了主题Bot征集活动扣子AI工坊,涵盖图文创作赛道、实用工具赛道、互动创意赛道三大赛道,让更多开发者的应用成果被看见,让AI能力被真正释放出来。

扣子已经从一个功能强大的技术平台,逐渐向外扩展成为AI开发者碰撞创意火花的舞台。

结语:扣子,为开发者破局

扣子在模型层面的开放性以及与Bot强结合的场景下,通过模型的直接PK让开发者直观感知Bot的能力与价值,并且模型的评测标准还能由开发者自定义,能让开发者在有限的资源条件下加速AI应用落地。

同时,不论从技术工具链还是服务体系来看,扣子的生态正在极速扩张,为开发者在大模型时代打开了更多的想象空间。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
20万打8万,战术也稳妥,明军却为何在萨尔浒败得一塌糊涂?

20万打8万,战术也稳妥,明军却为何在萨尔浒败得一塌糊涂?

历史大学堂
2026-02-15 15:00:53
东部战区一句话,直接把天聊“死”了!

东部战区一句话,直接把天聊“死”了!

达文西看世界
2026-02-17 11:12:07
“流水220万,利润0” 2026开年多了个新词——无利润繁荣

“流水220万,利润0” 2026开年多了个新词——无利润繁荣

餐饮界
2026-02-13 19:49:19
日内瓦会谈跟伊朗局势一样没看头!特朗普的MAGA基本盘正在分裂

日内瓦会谈跟伊朗局势一样没看头!特朗普的MAGA基本盘正在分裂

鹰眼Defence
2026-02-19 16:56:34
光刻机突然卖不动了?从一机难求到无人问津,背后真相太扎心

光刻机突然卖不动了?从一机难求到无人问津,背后真相太扎心

大卫聊科技
2026-02-16 14:47:38
解放军将伤亡惨重?民调曾显示:台92%人不支持回归,要抵抗到底

解放军将伤亡惨重?民调曾显示:台92%人不支持回归,要抵抗到底

荷兰豆爱健康
2026-02-17 13:30:45
美国最后通牒已下:伊朗大难临头,两个致命误判亲手关上最后生门

美国最后通牒已下:伊朗大难临头,两个致命误判亲手关上最后生门

肖兹探秘说
2026-02-20 23:52:34
特朗普称将解密UFO与外星人相关政府文件,包括“高度复杂但极具吸引力”的“任何及所有信息”

特朗普称将解密UFO与外星人相关政府文件,包括“高度复杂但极具吸引力”的“任何及所有信息”

极目新闻
2026-02-20 10:42:23
一觉醒来大战逼近!伊朗突然通告全球,特朗普这次摊上大事了

一觉醒来大战逼近!伊朗突然通告全球,特朗普这次摊上大事了

沧海旅行家
2026-02-19 23:48:51
特朗普“和平委员会”首秀,越南苏林亲自赴美捧场,俄罗斯没人去

特朗普“和平委员会”首秀,越南苏林亲自赴美捧场,俄罗斯没人去

全球沸点直击
2026-02-21 00:42:32
“收费时代”来了?原本免费的东西开始收费,网友:是抢疯了吗?

“收费时代”来了?原本免费的东西开始收费,网友:是抢疯了吗?

复转小能手
2026-02-14 22:21:17
杨采钰新年全家福,婆婆首出镜面相有点凶,张向荣搂她肩膀很护妻

杨采钰新年全家福,婆婆首出镜面相有点凶,张向荣搂她肩膀很护妻

疯说时尚
2026-02-18 05:59:35
让人心寒!给弟弟三孩子每人500,自己一孩子回500,姐姐决定断亲

让人心寒!给弟弟三孩子每人500,自己一孩子回500,姐姐决定断亲

火山詩话
2026-02-20 15:43:13
费德勒:丰塞卡很像辛纳一旦觉醒将所向披靡;安娃直言自己像德约

费德勒:丰塞卡很像辛纳一旦觉醒将所向披靡;安娃直言自己像德约

网球之家
2026-02-20 00:06:33
美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

保德全
2026-02-03 19:30:03
身价过亿的生活是啥样的?网友:我有个朋友想去你家应聘仆人

身价过亿的生活是啥样的?网友:我有个朋友想去你家应聘仆人

带你感受人间冷暖
2026-02-19 23:43:29
春晚这一夜,“跌落神坛”的王菲,让所有人见识了她的江湖地位!

春晚这一夜,“跌落神坛”的王菲,让所有人见识了她的江湖地位!

深度解析热点
2026-02-18 15:13:48
千钧一发,他们承认了!

千钧一发,他们承认了!

李荣茂
2026-02-20 07:07:23
自由式滑雪男子U型场地技巧预赛结束,4名中国选手均无缘决赛

自由式滑雪男子U型场地技巧预赛结束,4名中国选手均无缘决赛

齐鲁壹点
2026-02-20 22:02:48
任泽平:别再傻傻存钱!这3样东西才是“硬通货”,能跑赢印钞机

任泽平:别再傻傻存钱!这3样东西才是“硬通货”,能跑赢印钞机

徐sir财经
2026-02-20 13:02:54
2026-02-21 02:03:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11245文章数 116973关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

《将门独后》开拍,王鹤棣孟子义主演

财经要闻

特朗普全球关税被推翻!有何影响?

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

教育
时尚
亲子
手机
军事航空

教育要闻

出炉,2026考研初试成绩查询!

冬季羽绒服是最“受捧”的单品,这样选款和搭配,舒适耐看

亲子要闻

春节儿童吃撑了怎么办?家长可用山楂、麦芽煮水代茶饮

手机要闻

春节后影像机皇之争:OPPO Find X9 Ultra与vivo X300 Ultra规格曝光

军事要闻

消息人士透露:美军赴黄海活动 解放军有效应对处置

无障碍浏览 进入关怀版