网易首页 > 网易号 > 正文 申请入驻

卡帕西大模型横评方法太好玩!四大AI匿名参赛评分,最强出乎意料

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

卡帕西又来发布趣味编程项目了~

这次直接整了一个“大模型议会”(LLM Council)web app。

界面看起来和ChatGPT的聊天形式别无二致,但实际上当用户输入问题后,系统会通过OpenRouter调起多个大模型开会商议。

有意思的是,它们不仅会一起答题,而且还会互相评分、排序,最终将由主席模型给出一个统一答案。



卡帕西刚把这个应用的安装部署教程分享出来,就立马被不少网友码住:



更有甚者表示,或许以后模型自己评价模型本身就能变成一种新的“自动benchmark”:



畅销书《Python机器学习》作者也很看好这个思路:



LLM议会怎么玩

具体来说,卡帕西的这个LLM议会系统,主要可分为三步流程:

Step 1:让多个模型同时回答一个问题。

首先使用中间层OpenRouter同时调用多个大模型,包括:

  • GPT-5.1
  • Gemini 3 Pro Preview
  • Claude Sonnet 4.5
  • Grok-4

然后在同一问题下逐个收集它们的回复,并以标签视图的形式展示,以便用户进行检查。

Step 2:所有模型进行匿名互评。

这时,每个LLM都会收到其他LLM的回复。

为避免偏袒,对它们的身份都做了匿名化处理。

然后要求模型根据准确性和洞察力对其他模型的回答质量进行评估,需要给出评分和详细理由。



Step 3:主席模型汇总最终回答。

LLM委员会将指定一名主席,将所有模型的回复汇总,并形成一个最终的答案,再转交给用户。

于是通过这个过程,就能直接对比不同模型,在处理同一个问题时的风格差异,而且能够直观地看到模型之间互相评价的过程。

这套系统,其实是延续了卡帕西最近分享的用LLM分阶段深度阅读的项目。



PS:在GitHub上也收获了1.8k Stars。



该项目将传统的阅读流程重塑为与LLM协作的流程,通常阅读一篇文章内容也分为三个阶段:

1、先人工自己通读一次,获得整体感知和直觉理解。
2、然后将内容交给大模型处理,让它理解重难点、提取结构、总结内容等。
3、对文章细节进行深度追问,例如“为什么作者这里会这样写?”

最终就是将写作对象从人类读者转变为LLM读者,让LLM作为中介理解内容,再个性化翻译给不同的读者听。

当将大模型议会融入其中后,大模型们的商议结果也很有意思。

卡帕西发现,大模型一致认为最强、最有洞见的答案来自GPT-5.1,而Claude被公认为最弱,Gemini 3和Grok-4则排名位于中间。



但显然他对这个答案并不认同,在卡帕西的个人主观评价中,GPT-5.1内容丰富但是结构不够紧凑;Gemini 3答案更简洁凝练、信息处理得更好;而Claude答案过于简略。

此外,令人出乎意料的是,模型几乎很少出现明显的偏见,它们通常会愿意承认自己的答案不如另一个模型好

总的来说,卡帕西认为虽然模型内部自评不一定与人类主观一致,但类似的多模型集成或许将成为一个巨大的可探索空间,甚至可能成为未来LLM产品的一个突破点。

参考链接:
[1]https://x.com/karpathy/status/1992381094667411768?s=20
[2]https://github.com/karpathy/llm-council
[3]https://x.com/karpathy/status/1990577951671509438

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
永乐大典孤本在海外出现!第一万页写着一个从未在正史出现的名字

永乐大典孤本在海外出现!第一万页写着一个从未在正史出现的名字

吕醿极限手工
2026-01-13 20:40:01
伊朗宣布1月14日开始执行涉及街头示威的死刑判决

伊朗宣布1月14日开始执行涉及街头示威的死刑判决

桂系007
2026-01-13 01:43:56
输国王遭3连败!雷迪克自负决策毁了湖人,彻底废了东詹的1大能力

输国王遭3连败!雷迪克自负决策毁了湖人,彻底废了东詹的1大能力

小路看球
2026-01-13 16:04:06
比结婚还有排场!对话2026年第一个闯大祸的杀年猪女孩,合川文旅称考虑设刨猪汤节

比结婚还有排场!对话2026年第一个闯大祸的杀年猪女孩,合川文旅称考虑设刨猪汤节

潇湘晨报
2026-01-13 10:04:40
中欧电动汽车谈判结果:最低价格承诺取代关税

中欧电动汽车谈判结果:最低价格承诺取代关税

李丹Fintalk
2026-01-13 10:04:11
难以置信!冷战五天,浙江女子拒丈夫提夫妻生活要求,被网友炮轰

难以置信!冷战五天,浙江女子拒丈夫提夫妻生活要求,被网友炮轰

火山诗话
2026-01-13 07:23:45
合川呆呆真面目被扒,曾从事美容行业,前同事爆料更多

合川呆呆真面目被扒,曾从事美容行业,前同事爆料更多

有范又有料
2026-01-13 10:48:25
李亚鹏等成立的嫣然天使儿童医院被曝拖欠房租,医院回应:恳请租金回到合理正常市场水平

李亚鹏等成立的嫣然天使儿童医院被曝拖欠房租,医院回应:恳请租金回到合理正常市场水平

红星新闻
2026-01-13 17:12:22
曼联弃将踢疯了:独造5球,全场最佳,缔造队史15年神迹

曼联弃将踢疯了:独造5球,全场最佳,缔造队史15年神迹

足球狗说
2026-01-14 07:00:20
4名专家因送餐延误身体不适拒评标,青海省数据局通报

4名专家因送餐延误身体不适拒评标,青海省数据局通报

澎湃新闻
2026-01-12 23:44:04
喝假酒了吧?追觅科技CEO逆天发言 百万亿美金可相当于67个特斯拉

喝假酒了吧?追觅科技CEO逆天发言 百万亿美金可相当于67个特斯拉

道哥说车
2026-01-13 10:18:30
2026年新成语:恶意寻子!该警惕了,细节越挖越心寒!

2026年新成语:恶意寻子!该警惕了,细节越挖越心寒!

你食不食油饼
2026-01-11 06:41:42
专题片披露:蒋超良退居幕后,两个弟弟在台前充当代言人

专题片披露:蒋超良退居幕后,两个弟弟在台前充当代言人

澎湃新闻
2026-01-13 20:32:26
云南一母亲太过宠溺儿子,甘愿同意儿子的非分要求,最终酿成惨剧

云南一母亲太过宠溺儿子,甘愿同意儿子的非分要求,最终酿成惨剧

林林故事揭秘
2025-02-20 16:16:55
前一天促销,后一天闭店!记者调查“洗脸熊”门店跑路背后:明星代言难掩预付卡监管“黑洞”

前一天促销,后一天闭店!记者调查“洗脸熊”门店跑路背后:明星代言难掩预付卡监管“黑洞”

华夏时报
2026-01-13 19:50:05
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
44岁阿娇与43岁阿sa同框,一个脸肿一个纯天然,骨相皮相差距明显

44岁阿娇与43岁阿sa同框,一个脸肿一个纯天然,骨相皮相差距明显

千言娱乐记
2026-01-13 21:51:16
韩国前总统尹锡悦涉嫌发动内乱案将于2月19日一审宣判

韩国前总统尹锡悦涉嫌发动内乱案将于2月19日一审宣判

国际在线
2026-01-14 04:26:09
苦走10年投资路,李斌热泪盈眶:今天,我们终于赢了!

苦走10年投资路,李斌热泪盈眶:今天,我们终于赢了!

少数派报告Report
2026-01-12 17:41:03
香港“最乖富二代”邓兆尊,27年不动本金,从15亿滚到17亿

香港“最乖富二代”邓兆尊,27年不动本金,从15亿滚到17亿

未曾青梅
2026-01-12 20:22:43
2026-01-14 08:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12011文章数 176358关注度
往期回顾 全部

科技要闻

美国放宽对英伟达H200芯片出口中国的管制

头条要闻

媒体:赖清德训练打巷战 解放军无人机可直接"斩首"

头条要闻

媒体:赖清德训练打巷战 解放军无人机可直接"斩首"

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

蔡卓妍承认新恋情,与男友林俊贤感情稳定

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

旅游
时尚
艺术
家居
军事航空

旅游要闻

主游线路2.5公里 吃喝玩乐购有优惠

今年春天,外套长一点会更美!

艺术要闻

世界各地的男女厕所标志, 看得都大笑了!

家居要闻

现代简逸 寻找生活的光

军事要闻

美再发安全警告 敦促美公民立即离开伊朗

无障碍浏览 进入关怀版