网易首页 > 网易号 > 正文 申请入驻

Karpathy组建大模型「议会」,GPT-5.1、Gemini 3 Pro等化身最强智囊团

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心报道

编辑:冷猫

从短视频到 AI 模型,人们消费内容的习惯又一次向追求效率改变。

在阅读长文、论文或海量信息时,越来越多人不再耐心从头到尾浏览,而是倾向于直接获取高密度、快速可吸收的知识。让大模型直接来一段总结 —— 比如评论区一句「@元宝,总结一下」—— 已经成为一种普遍的做法。

这并不是说有什么不好。这恰恰说明在 AI 时代,高效获取信息本身就是人类能力的一次跃迁。

甚至连 AI 领域的大佬们也不例外。前 OpenAI 联合创始人、特斯拉 AI 总监 Andrej Karpathy 也一样。他在前几天发推,说自己「开始养成用 LLM 阅读一切的习惯」。


这和大多数人的阅读习惯非常相似,结合自己阅读的感悟和大模型的信息总结,我们能够形成一系列更完善的认知。

当然了,大语言模型有那么多,在获取信息,整理观点时面对不同类型的内容,其能力也是参差不齐。为了获取更加高质量的结果,Karpathy 毅然决定,让最新最强的四家大模型一起干活。

于是,Karpathy 在周六用氛围编程做了个新的项目,让四个最新的大模型组成一个 LLM 议会,给他做智囊团。

他认为:与其把问题单独问给某一家你最爱的 LLM 服务提供商,不如把它们都组建成一个属于你的 「LLM 议会」。


这个 LLM 议会是一个 Web 应用,界面看起来和 ChatGPT 一模一样,但每次用户提问其实会经历以下流程:

1)问题会被分发给议会中的多个模型(通过 OpenRouter),比如目前是:

  • openai/gpt-5.1

  • google/gemini-3-pro-preview

  • anthropic/claude-sonnet-4.5

  • x-ai/grok-4

2)然后所有模型都能看到彼此匿名处理过的回答,并对这些回答进行 审阅和排名;

3)最后,一个「主席模型(Chairman LLM)」会把这些内容作为上下文,生成最终回答。

具体来说,他使用 8 个配置了不同提示词(因此性格不同)的同一模型(gpt-oss-20b)组成了一个委员会。当 PewDiePie 提问时,每个模型都会给出一个答案,然后它们又会对答案进行投票,从中选出最好的答案。

而 Karpathy 这个项目则是使用了不同的大模型进行,更加多样化。

把多个模型的回答并排放在同一个问题下看,是一件很有意思的事情。尤其是加入了多个大模型之间的相互评价和投票机制后,简直是一场全新的「赛博斗蛐蛐」。

很多时候,这些模型竟然愿意承认别家的回答比自己的更好,使得这个流程成为一种非常有意思的模型评估方式。

比如,Karpathy 和「LLM 议会」一起读书时,它们一致称赞 GPT 5.1 是表现最好、洞见最丰富的模型,而始终把 Claude 排在最后,中间则是其他模型浮动。但 Karpathy 却不完全认同这种排序 —— 比如从主观感受上,GPT 5.1 对他来说稍微有点啰嗦、铺陈太多,而 Gemini 3 更凝练、处理得更好。Claude 在这个领域又显得过于简洁。

谁不喜欢看大模型之间的辩论呢?

具体而言,整个项目有三个步骤:

Stage 1:首次意见

用户的提问会被单独发给议会中的所有模型,并收集它们的回答。所有回答将以「标签页视图」展示,让用户可以逐个查看。

Stage 2:互评

每个 LLM 会看到其他模型的回答。后台会将模型身份匿名化,以避免模型「偏袒自己」或偏好某个特定模型。每个 LLM 会被要求基于 准确性与洞察力 对其他回答进行排名。

Stage 3:最终回答

被指定为「议会主席」的 LLM 会接收所有模型的回答与排名,并把这些信息整理成一个最终输出,呈现给用户。

有网友认为,这种形式最终可能成为一种基准测试:


话虽如此,LLM 议会的数据流设计可能还有一整片未被探索的设计空间。多模型集成的构建方式可能还远未被充分研究。

如果大家也对这个项目感兴趣,Karpathy 已经将该项目开源。

  • 项目地址:https://github.com/karpathy/llm-council

但提醒一下:Karpathy 不会对这个项目提供任何支持,它是原样提供的、为其他人提供灵感的小工具,他也不打算继续改进它。

我们在之前的测试中,也用氛围编程的方法复刻了一个差不多的项目,和 Karpathy 的 LLM 议会略有相似,使用了两个不同的模型部署。

或许我们也可以把这个小项目开源出来让大家玩一玩?

https://x.com/karpathy/status/1992381094667411768

https://github.com/karpathy/llm-council

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

冷峻视角下的世界
2026-02-20 07:45:35
当不成总统了?27座美军基地被炸,美国爆发抗议,特朗普或被弹劾

当不成总统了?27座美军基地被炸,美国爆发抗议,特朗普或被弹劾

王哈哈的等风来
2026-03-02 17:20:29
48小时送走哈梅内伊:令人恐怖的技术代差,现代战争的形态变了

48小时送走哈梅内伊:令人恐怖的技术代差,现代战争的形态变了

黑企鹅观察
2026-03-01 14:40:34
外媒:美官员首次证实美海军陆战队士兵在美驻巴基斯坦领事馆外的抗议活动中开火

外媒:美官员首次证实美海军陆战队士兵在美驻巴基斯坦领事馆外的抗议活动中开火

环球网资讯
2026-03-03 12:01:22
你是怎么发现亲戚见不得你过得好的?网友:我混的好他暴跳如雷

你是怎么发现亲戚见不得你过得好的?网友:我混的好他暴跳如雷

另子维爱读史
2026-03-01 20:08:16
华国锋担任中央主席时,中央先后任命了15位开国将帅辅佐他

华国锋担任中央主席时,中央先后任命了15位开国将帅辅佐他

雍亲王府
2026-03-02 15:55:03
7月1日起,全国统一死亡证明!在家死亡的到哪开?看完别跑冤枉路

7月1日起,全国统一死亡证明!在家死亡的到哪开?看完别跑冤枉路

阿讯说天下
2026-03-03 14:07:58
张紫妍被潜规则后自杀!曾同时“接待”4位客人,被玩到无法走路

张紫妍被潜规则后自杀!曾同时“接待”4位客人,被玩到无法走路

小徐讲八卦
2026-02-27 14:46:01
中国帮布隆迪种水稻,没想到种得太好,撕毁了西方国家的伪善

中国帮布隆迪种水稻,没想到种得太好,撕毁了西方国家的伪善

民智
2026-03-03 13:38:27
马斯克称第二代星链卫星将提供5G速度的太空互联网服务

马斯克称第二代星链卫星将提供5G速度的太空互联网服务

新浪财经
2026-03-02 13:01:49
神坛彻底崩塌!李莉被中情局盯上的谎言,该彻底戳穿了

神坛彻底崩塌!李莉被中情局盯上的谎言,该彻底戳穿了

老马拉车莫少装
2026-03-01 17:23:52
罗永浩不知要卸妆一年没卸 结果长了黄褐斑 现状已失控

罗永浩不知要卸妆一年没卸 结果长了黄褐斑 现状已失控

快科技
2026-03-02 09:27:07
靠100个车位的“睡后收入”?巴黎男子提前退休!

靠100个车位的“睡后收入”?巴黎男子提前退休!

新欧洲
2026-02-17 19:38:49
胡塞武装、黎巴嫩真主党和哈马斯就哈梅内伊遇害发声

胡塞武装、黎巴嫩真主党和哈马斯就哈梅内伊遇害发声

参考消息
2026-03-01 20:06:21
摆满院子的东风快递,美国人看后心里踏实了:原来是这么造的

摆满院子的东风快递,美国人看后心里踏实了:原来是这么造的

趣生活
2026-01-12 21:36:45
美国对中国渗透没白费,扶持的“内鬼”,终于开始在中国露头了

美国对中国渗透没白费,扶持的“内鬼”,终于开始在中国露头了

历史求知所
2025-12-01 11:30:06
稀土是我们的,凭什么卖给台积电,然后台积电造好芯片卖给日本?

稀土是我们的,凭什么卖给台积电,然后台积电造好芯片卖给日本?

晓肂爱八卦
2026-02-27 19:10:14
迪拜机场再次被炸!被困女星已失联,工作室一言不发,后果不敢想

迪拜机场再次被炸!被困女星已失联,工作室一言不发,后果不敢想

乐悠悠娱乐
2026-03-03 12:50:05
成龙安排好身后事才2个月,翁静晶再曝大瓜,没给他留一丝体面

成龙安排好身后事才2个月,翁静晶再曝大瓜,没给他留一丝体面

星星没有你亮
2026-02-28 20:40:21
哈登一战独创两大里程碑,历史第一神迹在望

哈登一战独创两大里程碑,历史第一神迹在望

大眼瞄世界
2026-03-02 22:57:56
2026-03-03 18:24:50
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2334592文章数 5656关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

袭击伊朗后 特朗普首次发表白宫讲话:将不惜一切代价

头条要闻

袭击伊朗后 特朗普首次发表白宫讲话:将不惜一切代价

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

游戏
艺术
本地
时尚
公开课

KONAMI Digital Entertainment确认成为 2026 年世界棒球经典赛™赞助商

艺术要闻

Nihad Aghazada:当代阿塞拜疆画家

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

普通人穿衣真的很简单!单品选对、搭配合理,大方舒适又得体

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版