网易首页 > 网易号 > 正文 申请入驻

Karpathy组建大模型「议会」,GPT-5.1、Gemini 3 Pro等化身最强智囊团

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心报道

编辑:冷猫

从短视频到 AI 模型,人们消费内容的习惯又一次向追求效率改变。

在阅读长文、论文或海量信息时,越来越多人不再耐心从头到尾浏览,而是倾向于直接获取高密度、快速可吸收的知识。让大模型直接来一段总结 —— 比如评论区一句「@元宝,总结一下」—— 已经成为一种普遍的做法。

这并不是说有什么不好。这恰恰说明在 AI 时代,高效获取信息本身就是人类能力的一次跃迁。

甚至连 AI 领域的大佬们也不例外。前 OpenAI 联合创始人、特斯拉 AI 总监 Andrej Karpathy 也一样。他在前几天发推,说自己「开始养成用 LLM 阅读一切的习惯」。


这和大多数人的阅读习惯非常相似,结合自己阅读的感悟和大模型的信息总结,我们能够形成一系列更完善的认知。

当然了,大语言模型有那么多,在获取信息,整理观点时面对不同类型的内容,其能力也是参差不齐。为了获取更加高质量的结果,Karpathy 毅然决定,让最新最强的四家大模型一起干活。

于是,Karpathy 在周六用氛围编程做了个新的项目,让四个最新的大模型组成一个 LLM 议会,给他做智囊团。

他认为:与其把问题单独问给某一家你最爱的 LLM 服务提供商,不如把它们都组建成一个属于你的 「LLM 议会」。


这个 LLM 议会是一个 Web 应用,界面看起来和 ChatGPT 一模一样,但每次用户提问其实会经历以下流程:

1)问题会被分发给议会中的多个模型(通过 OpenRouter),比如目前是:

  • openai/gpt-5.1

  • google/gemini-3-pro-preview

  • anthropic/claude-sonnet-4.5

  • x-ai/grok-4

2)然后所有模型都能看到彼此匿名处理过的回答,并对这些回答进行 审阅和排名;

3)最后,一个「主席模型(Chairman LLM)」会把这些内容作为上下文,生成最终回答。

具体来说,他使用 8 个配置了不同提示词(因此性格不同)的同一模型(gpt-oss-20b)组成了一个委员会。当 PewDiePie 提问时,每个模型都会给出一个答案,然后它们又会对答案进行投票,从中选出最好的答案。

而 Karpathy 这个项目则是使用了不同的大模型进行,更加多样化。

把多个模型的回答并排放在同一个问题下看,是一件很有意思的事情。尤其是加入了多个大模型之间的相互评价和投票机制后,简直是一场全新的「赛博斗蛐蛐」。

很多时候,这些模型竟然愿意承认别家的回答比自己的更好,使得这个流程成为一种非常有意思的模型评估方式。

比如,Karpathy 和「LLM 议会」一起读书时,它们一致称赞 GPT 5.1 是表现最好、洞见最丰富的模型,而始终把 Claude 排在最后,中间则是其他模型浮动。但 Karpathy 却不完全认同这种排序 —— 比如从主观感受上,GPT 5.1 对他来说稍微有点啰嗦、铺陈太多,而 Gemini 3 更凝练、处理得更好。Claude 在这个领域又显得过于简洁。

谁不喜欢看大模型之间的辩论呢?

具体而言,整个项目有三个步骤:

Stage 1:首次意见

用户的提问会被单独发给议会中的所有模型,并收集它们的回答。所有回答将以「标签页视图」展示,让用户可以逐个查看。

Stage 2:互评

每个 LLM 会看到其他模型的回答。后台会将模型身份匿名化,以避免模型「偏袒自己」或偏好某个特定模型。每个 LLM 会被要求基于 准确性与洞察力 对其他回答进行排名。

Stage 3:最终回答

被指定为「议会主席」的 LLM 会接收所有模型的回答与排名,并把这些信息整理成一个最终输出,呈现给用户。

有网友认为,这种形式最终可能成为一种基准测试:


话虽如此,LLM 议会的数据流设计可能还有一整片未被探索的设计空间。多模型集成的构建方式可能还远未被充分研究。

如果大家也对这个项目感兴趣,Karpathy 已经将该项目开源。

  • 项目地址:https://github.com/karpathy/llm-council

但提醒一下:Karpathy 不会对这个项目提供任何支持,它是原样提供的、为其他人提供灵感的小工具,他也不打算继续改进它。

我们在之前的测试中,也用氛围编程的方法复刻了一个差不多的项目,和 Karpathy 的 LLM 议会略有相似,使用了两个不同的模型部署。

或许我们也可以把这个小项目开源出来让大家玩一玩?

https://x.com/karpathy/status/1992381094667411768

https://github.com/karpathy/llm-council

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6岁男孩为躲母亲殴打,离家出走22年,长大后才得知母亲悲惨人生

6岁男孩为躲母亲殴打,离家出走22年,长大后才得知母亲悲惨人生

哄动一时啊
2026-04-19 14:38:19
春夏流行这5“鞋子”,搭配裤子、裙子美爆了!

春夏流行这5“鞋子”,搭配裤子、裙子美爆了!

何有强
2026-04-20 22:06:04
辛纳突发肩部不适!ATP顶尖球星在法网前纷纷倒下?

辛纳突发肩部不适!ATP顶尖球星在法网前纷纷倒下?

网球之家
2026-04-21 23:42:54
心脏协会改口:吃猪油不如植物油?争议来了

心脏协会改口:吃猪油不如植物油?争议来了

时光慢邮啊
2026-04-20 16:50:17
汉语牺牲了什么,才成为如今最高效的语言

汉语牺牲了什么,才成为如今最高效的语言

刺头体育
2026-04-20 15:36:12
周润发750万卖出50平米山顶豪宅,杂草丛生,曾叫价1.95亿卖不掉

周润发750万卖出50平米山顶豪宅,杂草丛生,曾叫价1.95亿卖不掉

螃蟹吃瓜摊
2026-04-20 20:15:05
赖清德窜访不了了,三国突然取消飞航许可

赖清德窜访不了了,三国突然取消飞航许可

上观新闻
2026-04-22 06:43:13
手握43个世界冠军,25岁嫁百亿豪门,7年连生4娃,仍被丈夫宠成宝

手握43个世界冠军,25岁嫁百亿豪门,7年连生4娃,仍被丈夫宠成宝

翰飞观事
2026-04-16 14:36:57
美国终于开始害怕?比稀土更致命王牌出手了,万斯:中国要冷静

美国终于开始害怕?比稀土更致命王牌出手了,万斯:中国要冷静

混沌录
2026-04-10 22:53:19
别再造谣传谣了!警方通报证实:长治万达广场坠楼身亡女子独自翻越栏杆坠落 排除刑事案件!

别再造谣传谣了!警方通报证实:长治万达广场坠楼身亡女子独自翻越栏杆坠落 排除刑事案件!

闪电新闻
2026-04-21 10:33:26
花1.5万、烧掉23亿Token,CTO让Claude一周“打穿”Chrome!实测结果:别等Mythos了,现有AI已经“高危”

花1.5万、烧掉23亿Token,CTO让Claude一周“打穿”Chrome!实测结果:别等Mythos了,现有AI已经“高危”

CSDN
2026-04-21 20:51:49
退休安排有变!公务员弹性延迟退休取消,新方案已确定

退休安排有变!公务员弹性延迟退休取消,新方案已确定

一口娱乐
2026-04-22 05:02:00
林涛卸任国务院副秘书长,已任厦门市委书记(附简历)

林涛卸任国务院副秘书长,已任厦门市委书记(附简历)

中国城市报
2026-04-21 22:11:52
网友爸爸2年前垃圾堆里捡回72条32GB DDR4内存:如今价值近14万

网友爸爸2年前垃圾堆里捡回72条32GB DDR4内存:如今价值近14万

快科技
2026-04-20 10:51:04
闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

磊子讲史
2026-01-23 16:54:49
释永信“开光”真相大白,过程不堪入目,易中天也被牵连

释永信“开光”真相大白,过程不堪入目,易中天也被牵连

往史过眼云烟
2026-03-24 17:05:24
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
争议拉满!前英超裁判怒批:哈兰德绝杀无效,曼城偷走 3 分

争议拉满!前英超裁判怒批:哈兰德绝杀无效,曼城偷走 3 分

一隅非生
2026-04-21 08:32:56
特朗普称伊朗已多次违反停火协议

特朗普称伊朗已多次违反停火协议

财联社
2026-04-21 19:18:05
纽约尾盘,现货黄金跌2.12%

纽约尾盘,现货黄金跌2.12%

每日经济新闻
2026-04-22 05:28:05
2026-04-22 07:23:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2952332文章数 6844关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

时尚
房产
本地
数码
教育

顶流复工,已判若两人

房产要闻

年薪40-50万!海南地产圈还在猛招人

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

数码要闻

大疆DJI Mic Mini 2发布:329元起 可更换麦克风磁吸前盖

教育要闻

高考地理:区域协同发展的答题基本思路

无障碍浏览 进入关怀版