哈喽,大家好,杆哥这篇评论,主要来分析卡帕西新作爆火:大模型开“议会”互怼评分,1.8k星刷屏GitHub
![]()
人工智能圈的“创意达人”卡帕西又搞出大动静了!这次他推出的“大模型议会”Web应用,彻底打破了单模型问答的传统模式。
表面看这应用和ChatGPT没啥两样,都是输入问题等回复,但背地里却是多个顶尖大模型开“圆桌会议”——答题、互评、打分一条龙,最后由“主席”汇总出终极答案。
教程刚一发布就被网友疯狂收藏,GitHub上更是火速斩获1.8k星,连《Python机器学习》作者都直言这思路“太有潜力”。
三步走流程:大模型议会如何“开趴”?
卡帕西这套“大模型议会”系统,操作逻辑清晰明了,核心就三步流程,环环相扣还自带看点。
![]()
第一步是“集体答题”。通过OpenRouter中间层,同时调用四款顶尖大模型:GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4。
这些模型会各自独立完成答题,之后系统会把所有回复以标签视图形式展示,方便用户随时核查每个模型的原始答案。、
![]()
第二步堪称精髓——“匿名互评”。所有模型的回复会被匿名处理后,分发给其他模型。没有了身份标签的干扰,就能最大程度避免偏袒。
每个模型要从准确性和洞察力两个维度,给其他对手打分,还得附上详细的评价理由,相当于一场“盲审”现场。
第三步是“主席定调”。系统会指定一名“主席模型”,整合所有模型的答题内容和互评结果,最终提炼出一份综合答案反馈给用户。
整个过程下来,不仅能直观对比不同模型的答题风格,连它们互相“挑刺”的细节都能看得一清二楚。
![]()
延续创新思路:从深度阅读到集体议事
![]()
其实“大模型议会”并非凭空出世,它是卡帕西此前“LLM分阶段深度阅读”项目的延续和升级。
那个阅读项目颠覆了传统模式,把人与大模型的协作分成了三个阶段。先由人通读全文建立直觉认知,再交给大模型拆解重难点、梳理结构,最后针对细节深度追问。
简单说就是先让大模型“吃透”内容,再由它当“翻译官”,把信息个性化传递给不同读者。
当“大模型议会”融入这套阅读流程后,还意外测出了各模型的“实力排名”。卡帕西发现,模型们互评时达成了高度共识
![]()
GPT-5.1的答案被公认为最有洞见,Gemini 3和Grok-4排在中间,Claude则被评为最弱。
但这个结果和卡帕西的主观判断并不一致。他认为GPT-5.1内容虽丰富但结构松散,Gemini 3的答案更简洁凝练,信息处理效率更高,而Claude的问题则是过于简略。
意外发现:模型比人还“谦虚”?
![]()
除了排名差异,实验中还有个让人意外的现象:这些大模型几乎没有明显偏见,甚至会主动承认自己的答案不如对手。
要知道,在人类评价场景中,“自卖自夸”或“恶意贬低”都很常见,但大模型在匿名状态下,反而能更客观地聚焦答案本身。
这种特性让网友看到了新可能:有网友直言,未来模型互评或许能发展成全新的“自动基准测试”体系,不用再依赖人工设计评测标准。
![]()
这一猜想并非空想。此前谷歌DeepMind就推出过自动评估模型FLAMe,用530万条人类评估意见训练,准确率甚至超过GPT-4o。
而卡帕西的“议会”模式,相当于让评估过程实时化、场景化,比传统基准测试更贴近实际使用场景。
1.8k星背后:多模型集成是未来方向?
![]()
短短时间收获1.8k星,足以证明“大模型议会”的受欢迎程度。这背后反映的,是行业对多模型集成方案的强烈需求。
过去大家总在追求“单个超算模型”,但卡帕西用实践证明,多个模型协同工作可能是更优解。
不同模型各有优势:有的擅长逻辑推理,有的主打简洁表达,有的在专业领域更精准,通过“议会”模式整合这些优势,答案质量自然更高。
OpenRouter近期的动态也印证了这一趋势,他们推出的“精准工具调用端点”,就是通过路由优化让不同模型各司其职,提升任务成功率。
卡帕西也明确表示,虽然模型自评和人类判断还存在差异,但多模型集成无疑是个巨大的可探索空间。
或许未来我们使用的AI产品,不再是单个“智能大脑”,而是一群模型组成的“智囊团”——开会、讨论、权衡利弊后,再给出最优解。而这次爆火的“大模型议会”,可能就是这个未来的起点。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.