网易首页 > 网易号 > 正文 申请入驻

卡帕西大模型横评方法太好玩!四大AI匿名参赛评分,最强出乎意料

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

卡帕西又来发布趣味编程项目了~

这次直接整了一个“大模型议会”(LLM Council)web app。

界面看起来和ChatGPT的聊天形式别无二致,但实际上当用户输入问题后,系统会通过OpenRouter调起多个大模型开会商议。

有意思的是,它们不仅会一起答题,而且还会互相评分、排序,最终将由主席模型给出一个统一答案。



卡帕西刚把这个应用的安装部署教程分享出来,就立马被不少网友码住:



更有甚者表示,或许以后模型自己评价模型本身就能变成一种新的“自动benchmark”:



畅销书《Python机器学习》作者也很看好这个思路:



LLM议会怎么玩

具体来说,卡帕西的这个LLM议会系统,主要可分为三步流程:

Step 1:让多个模型同时回答一个问题。

首先使用中间层OpenRouter同时调用多个大模型,包括:

  • GPT-5.1
  • Gemini 3 Pro Preview
  • Claude Sonnet 4.5
  • Grok-4

然后在同一问题下逐个收集它们的回复,并以标签视图的形式展示,以便用户进行检查。

Step 2:所有模型进行匿名互评。

这时,每个LLM都会收到其他LLM的回复。

为避免偏袒,对它们的身份都做了匿名化处理。

然后要求模型根据准确性和洞察力对其他模型的回答质量进行评估,需要给出评分和详细理由。



Step 3:主席模型汇总最终回答。

LLM委员会将指定一名主席,将所有模型的回复汇总,并形成一个最终的答案,再转交给用户。

于是通过这个过程,就能直接对比不同模型,在处理同一个问题时的风格差异,而且能够直观地看到模型之间互相评价的过程。

这套系统,其实是延续了卡帕西最近分享的用LLM分阶段深度阅读的项目。



PS:在GitHub上也收获了1.8k Stars。



该项目将传统的阅读流程重塑为与LLM协作的流程,通常阅读一篇文章内容也分为三个阶段:

1、先人工自己通读一次,获得整体感知和直觉理解。
2、然后将内容交给大模型处理,让它理解重难点、提取结构、总结内容等。
3、对文章细节进行深度追问,例如“为什么作者这里会这样写?”

最终就是将写作对象从人类读者转变为LLM读者,让LLM作为中介理解内容,再个性化翻译给不同的读者听。

当将大模型议会融入其中后,大模型们的商议结果也很有意思。

卡帕西发现,大模型一致认为最强、最有洞见的答案来自GPT-5.1,而Claude被公认为最弱,Gemini 3和Grok-4则排名位于中间。



但显然他对这个答案并不认同,在卡帕西的个人主观评价中,GPT-5.1内容丰富但是结构不够紧凑;Gemini 3答案更简洁凝练、信息处理得更好;而Claude答案过于简略。

此外,令人出乎意料的是,模型几乎很少出现明显的偏见,它们通常会愿意承认自己的答案不如另一个模型好

总的来说,卡帕西认为虽然模型内部自评不一定与人类主观一致,但类似的多模型集成或许将成为一个巨大的可探索空间,甚至可能成为未来LLM产品的一个突破点。

参考链接:
[1]https://x.com/karpathy/status/1992381094667411768?s=20
[2]https://github.com/karpathy/llm-council
[3]https://x.com/karpathy/status/1990577951671509438

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
持续三个世纪的仇恨难解,85%民众痛斥中国,瑞典为何如此反华?

持续三个世纪的仇恨难解,85%民众痛斥中国,瑞典为何如此反华?

音乐时光的娱乐
2026-04-19 16:54:01
郭富城与方媛晒结婚纪念日合照,双双晒照定制水晶摆件撒糖

郭富城与方媛晒结婚纪念日合照,双双晒照定制水晶摆件撒糖

眼底星碎
2026-04-19 18:40:18
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

胡一舸南游y
2026-04-04 15:41:43
日本爆冷夺冠!朝鲜U20女足全场0进球,球员赛后黑脸拒绝握手

日本爆冷夺冠!朝鲜U20女足全场0进球,球员赛后黑脸拒绝握手

谈史论天地
2026-04-19 13:52:15
1950年,志愿军师长进隧道休息,突感异常,对面山坡竟有大片帐篷

1950年,志愿军师长进隧道休息,突感异常,对面山坡竟有大片帐篷

浩渺青史
2026-04-19 15:54:31
在韩国遭日籍男子骚扰的中国女生最新发声:涉事者被警方限期返韩接受调查,韩国警方已就前期处置疏漏致歉,并将对涉事警务人员开展调查

在韩国遭日籍男子骚扰的中国女生最新发声:涉事者被警方限期返韩接受调查,韩国警方已就前期处置疏漏致歉,并将对涉事警务人员开展调查

大风新闻
2026-04-19 15:49:08
美国签署37亿合同,继续给乌克兰提供爱国者导弹,将在德国生产

美国签署37亿合同,继续给乌克兰提供爱国者导弹,将在德国生产

白日追梦人
2026-04-16 04:26:12
新代言人火爆全球,以色列慌了

新代言人火爆全球,以色列慌了

侠客栈
2026-04-18 13:14:53
把「性」拍的这么温馨,只有这部美剧了

把「性」拍的这么温馨,只有这部美剧了

来看美剧
2026-04-18 23:20:03
以前的旧衣服,如今成了“救命稻草”?奉劝大家:别再断舍离了!

以前的旧衣服,如今成了“救命稻草”?奉劝大家:别再断舍离了!

糖逗在娱乐
2026-04-19 20:59:30
在中国气头上,高市加了把火,自卫队开进台海,直接惊动解放军

在中国气头上,高市加了把火,自卫队开进台海,直接惊动解放军

立刻受到开始的覅
2026-04-19 22:42:35
女篮世界杯分档出炉!中国队直接避开5大劲敌:这下冲击四强稳了

女篮世界杯分档出炉!中国队直接避开5大劲敌:这下冲击四强稳了

篮球快餐车
2026-04-19 06:07:20
出生39天,生母陈宝莲就自杀,如今戴耳钉、纹纹身走上“不归路”

出生39天,生母陈宝莲就自杀,如今戴耳钉、纹纹身走上“不归路”

林轻吟
2026-04-13 19:48:49
广东珠海一女神好漂亮, 身高179cm,体重50kg 美的让人移不开眼

广东珠海一女神好漂亮, 身高179cm,体重50kg 美的让人移不开眼

今日搞笑分享
2026-04-06 17:55:16
每体:据相关人士透露,梅西收购科尔内利亚大约花费200万欧

每体:据相关人士透露,梅西收购科尔内利亚大约花费200万欧

懂球帝
2026-04-19 15:11:13
皇马启动穆帅回归谈判!老佛爷约见门德斯,5月28日定最终结果

皇马启动穆帅回归谈判!老佛爷约见门德斯,5月28日定最终结果

佳佳说奇事故事
2026-04-18 21:16:18
71.5%!历史性暴跌,以贷养贷的泡沫崩了

71.5%!历史性暴跌,以贷养贷的泡沫崩了

月满大江流
2026-04-16 13:54:38
张雪爆缸事件后续来了:宣布全国门店技师整改,不达标直接关店!

张雪爆缸事件后续来了:宣布全国门店技师整改,不达标直接关店!

云景侃记
2026-04-18 19:29:53
后续!孕妇200买水果被老公骂:在坐小月子,老公得知后怒砸东西

后续!孕妇200买水果被老公骂:在坐小月子,老公得知后怒砸东西

青梅侃史啊
2026-04-15 07:51:58
何润东“西楚霸王项羽”造型亮相没骑马引热议,本人回应

何润东“西楚霸王项羽”造型亮相没骑马引热议,本人回应

韩小娱
2026-04-19 08:56:44
2026-04-20 01:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12497文章数 176455关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

亲子
游戏
教育
公开课
军事航空

亲子要闻

孩子总打喷嚏、起疹子,时过敏吗?

如何将ZH-1火力最大化?《战舰世界》15.3版本造船厂加点攻略

教育要闻

655家单位、1.29万个岗位,湖南用心帮大学生找工作

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗逼退美扫雷艇:美方求给15分钟撤退

无障碍浏览 进入关怀版