网易首页 > 网易号 > 正文 申请入驻

卡帕西大模型横评方法太好玩!四大AI匿名参赛评分,最强出乎意料

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

卡帕西又来发布趣味编程项目了~

这次直接整了一个“大模型议会”(LLM Council)web app。

界面看起来和ChatGPT的聊天形式别无二致,但实际上当用户输入问题后,系统会通过OpenRouter调起多个大模型开会商议。

有意思的是,它们不仅会一起答题,而且还会互相评分、排序,最终将由主席模型给出一个统一答案。



卡帕西刚把这个应用的安装部署教程分享出来,就立马被不少网友码住:



更有甚者表示,或许以后模型自己评价模型本身就能变成一种新的“自动benchmark”:



畅销书《Python机器学习》作者也很看好这个思路:



LLM议会怎么玩

具体来说,卡帕西的这个LLM议会系统,主要可分为三步流程:

Step 1:让多个模型同时回答一个问题。

首先使用中间层OpenRouter同时调用多个大模型,包括:

  • GPT-5.1
  • Gemini 3 Pro Preview
  • Claude Sonnet 4.5
  • Grok-4

然后在同一问题下逐个收集它们的回复,并以标签视图的形式展示,以便用户进行检查。

Step 2:所有模型进行匿名互评。

这时,每个LLM都会收到其他LLM的回复。

为避免偏袒,对它们的身份都做了匿名化处理。

然后要求模型根据准确性和洞察力对其他模型的回答质量进行评估,需要给出评分和详细理由。



Step 3:主席模型汇总最终回答。

LLM委员会将指定一名主席,将所有模型的回复汇总,并形成一个最终的答案,再转交给用户。

于是通过这个过程,就能直接对比不同模型,在处理同一个问题时的风格差异,而且能够直观地看到模型之间互相评价的过程。

这套系统,其实是延续了卡帕西最近分享的用LLM分阶段深度阅读的项目。



PS:在GitHub上也收获了1.8k Stars。



该项目将传统的阅读流程重塑为与LLM协作的流程,通常阅读一篇文章内容也分为三个阶段:

1、先人工自己通读一次,获得整体感知和直觉理解。
2、然后将内容交给大模型处理,让它理解重难点、提取结构、总结内容等。
3、对文章细节进行深度追问,例如“为什么作者这里会这样写?”

最终就是将写作对象从人类读者转变为LLM读者,让LLM作为中介理解内容,再个性化翻译给不同的读者听。

当将大模型议会融入其中后,大模型们的商议结果也很有意思。

卡帕西发现,大模型一致认为最强、最有洞见的答案来自GPT-5.1,而Claude被公认为最弱,Gemini 3和Grok-4则排名位于中间。



但显然他对这个答案并不认同,在卡帕西的个人主观评价中,GPT-5.1内容丰富但是结构不够紧凑;Gemini 3答案更简洁凝练、信息处理得更好;而Claude答案过于简略。

此外,令人出乎意料的是,模型几乎很少出现明显的偏见,它们通常会愿意承认自己的答案不如另一个模型好

总的来说,卡帕西认为虽然模型内部自评不一定与人类主观一致,但类似的多模型集成或许将成为一个巨大的可探索空间,甚至可能成为未来LLM产品的一个突破点。

参考链接:
[1]https://x.com/karpathy/status/1992381094667411768?s=20
[2]https://github.com/karpathy/llm-council
[3]https://x.com/karpathy/status/1990577951671509438

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被骂“后妈式早餐“的她,全网有100万人在追更!

被骂“后妈式早餐“的她,全网有100万人在追更!

妈咪OK
2026-02-27 15:16:05
这次荷兰没话说!中方正式摊牌:断供你的芯片,我们自己造

这次荷兰没话说!中方正式摊牌:断供你的芯片,我们自己造

卷史
2026-02-28 21:17:25
搬家前我拔了路由器,隔壁宝妈竟报警抓我,当晚,我让她没招了

搬家前我拔了路由器,隔壁宝妈竟报警抓我,当晚,我让她没招了

奶茶麦子
2026-02-28 18:51:07
美国没想到,俄罗斯也没想到!中国石油,如今会成为“遥遥领先”

美国没想到,俄罗斯也没想到!中国石油,如今会成为“遥遥领先”

来科点谱
2026-02-20 07:16:30
以媒:伊朗革命卫队总司令和防长身亡

以媒:伊朗革命卫队总司令和防长身亡

每日经济新闻
2026-02-28 23:04:34
东詹翻脸三大镜头曝光!入场就闹翻,队友手足无措,艾顿成替罪羊

东詹翻脸三大镜头曝光!入场就闹翻,队友手足无措,艾顿成替罪羊

嘴炮体坛
2026-02-28 11:26:34
吴宜泽:我本有机会取得5-4领先,但打球不够稳健让我付出了代价

吴宜泽:我本有机会取得5-4领先,但打球不够稳健让我付出了代价

世界体坛观察家
2026-03-01 06:13:36
2026年春季开学重磅调整!中小学取消强制早自习推迟到校

2026年春季开学重磅调整!中小学取消强制早自习推迟到校

老特有话说
2026-02-25 22:44:45
阿富汗被巴基斯坦暴捶:塔利班军事依旧简陋,财政多用于宗教建设

阿富汗被巴基斯坦暴捶:塔利班军事依旧简陋,财政多用于宗教建设

黄娜老师
2026-02-27 22:32:30
一旦爆发世界大战,谁敢直接攻击美国本土,美上将:只有一个国家

一旦爆发世界大战,谁敢直接攻击美国本土,美上将:只有一个国家

风流女汉
2026-02-09 23:23:10
坏消息,76人队中锋乔尔·恩比德因腹斜肌拉伤将缺席多场比赛

坏消息,76人队中锋乔尔·恩比德因腹斜肌拉伤将缺席多场比赛

好火子
2026-03-01 07:11:45
世界上最烧钱的十项运动,没钱你真玩不起!

世界上最烧钱的十项运动,没钱你真玩不起!

马拉松跑步健身
2026-02-28 11:37:18
养伤23天!皇马6000万前锋回归:18场仅1球 主力沦为替补

养伤23天!皇马6000万前锋回归:18场仅1球 主力沦为替补

叶青足球世界
2026-02-28 19:28:16
男人寿命短,根源不在烟酒,而在你每晚的睡觉里

男人寿命短,根源不在烟酒,而在你每晚的睡觉里

青苹果sht
2026-02-26 07:24:18
3-1!意甲小球会踢疯了!距卫冕冠军2分,冲击欧冠资格

3-1!意甲小球会踢疯了!距卫冕冠军2分,冲击欧冠资格

体育世界
2026-03-01 00:29:23
中东谁也打不过的以色列,在东亚算什么水平?韩国:谁也打不过

中东谁也打不过的以色列,在东亚算什么水平?韩国:谁也打不过

比利
2025-11-29 18:49:51
巴防长直接宣战,巴阿全面开打,塔利班全线溃退

巴防长直接宣战,巴阿全面开打,塔利班全线溃退

老马拉车莫少装
2026-02-27 23:59:47
中国卫星全程监视美军调动,特朗普打伊朗中国最先知道

中国卫星全程监视美军调动,特朗普打伊朗中国最先知道

近史博览
2026-02-28 19:58:22
马斯克发出内部指令:星链全面支持乌克兰

马斯克发出内部指令:星链全面支持乌克兰

桂系007
2026-02-28 05:27:49
书记校长都是院士!华南地区最强工科大学迎新校长,规格拉满了

书记校长都是院士!华南地区最强工科大学迎新校长,规格拉满了

Delete丨CC
2026-02-28 20:28:36
2026-03-01 08:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12211文章数 176398关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普:对伊朗的不间断打击将持续一周甚至更长时间

头条要闻

特朗普:对伊朗的不间断打击将持续一周甚至更长时间

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

亲子
家居
房产
公开课
军事航空

亲子要闻

逆天,在医院上班怀孕都要提前申请了!

家居要闻

素色肌理 品意式格调

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国以色列联合袭击伊朗 实时战况

无障碍浏览 进入关怀版