网易首页 > 网易号 > 正文 申请入驻

让两个AI互相辩论后,我发现答案质量变了

0
分享至

用Claude写代码、让Codex补全、找Gemini查资料——这套 workflow 我用了很久,但有个 bug 一直没修:某个模型给出一个看起来很稳的答案,我照做了,上线后才发现漏想了一层边界情况。

问题不在模型够不够强。问题在于我只问了一个模型。


后来我开始把同一个问题丢给两个模型,各自独立回答,再对比它们的结论。奇怪的是,决策质量确实提升了——不是因为某个模型更聪明,而是它们的分歧本身就有信息价值


但手动操作太折磨了:复制问题、粘贴上下文、等两份长回答、在脑子里做 diff、再把其中一份贴回去追问、继续等。状态好的时候能走完一轮,多数时候直接跳过。

所以我做了 WhaleCouncil,一个把这套流程自动化的 CLI 工具。

核心机制分三轮。第一轮,两个模型各自独立作答,互相看不到对方的回答——这很关键,如果模型 B 先读了 A 的答案,会产生锚定效应,最后变成礼貌性附和,而非独立判断。

第二轮,双方看到彼此的初稿,被要求回应:你是否改变立场?还有哪些分歧?为什么?

第三轮由一个裁判模型(默认用你本地已有的 Claude)做结构化解构:共识点在哪、真正的分歧点在哪、什么事实能终结争议、下一步该做什么。

作者举了个具体例子:问"session 存储该用 Redis 还是 Postgres"。

第一轮,两个 Claude 实例都默认选 Redis,理由也类似——高频访问、短 TTL、原生 EXPIRE 比 Postgres 的定时清理任务更可靠。但细看有微妙差异:一个建议"先用 Postgres 表简化部署,必要时再迁",另一个明确反对这种"为了省组件而硬塞 Postgres"的做法。同样的技术事实,优先级判断相反。


更隐蔽的分歧在 Postgres 方案的设计细节:一个推荐分区表加定期删旧分区,另一个推荐 UNLOGGED TABLE——但 UNLOGGED 在崩溃时会丢数据,这和他们"选 Postgres 是为了持久性"的共同前提直接矛盾。

第二轮的修正很有意思。推荐 UNLOGGED TABLE 的那个实例主动认错:"看到对方回答后,我更新立场——UNLOGGED TABLE 会丢掉崩溃耐久性,这 undermine 了选 Postgres 的全部理由。"另一个则软化了"默认 Redis"的绝对语气,补充了一个前置问题:"你已经在跑 Redis 了吗?如果没有,专门为 session 引入它可能是过早优化。"

最终裁判模型的总结:双方共识是"如果技术栈里已有 Redis,session 存 Redis 是合理默认";共同修正了 UNLOGGED TABLE 的失误;遗留分歧是 greenfield 场景下的默认选择——这个需要结合团队运维能力和现有组件情况 case by case 判断。

这个工具的设计假设挺值得玩味:单个模型的置信度输出是噪声,两个独立信号的交叉比对才能暴露盲区。不是追求"更正确的答案",而是把不确定性显式化——你知道哪里还有争议,哪里已经被双方共同证伪。

作者没说的是,这套机制对什么类型的问题最有效。从例子推测,架构选型、技术权衡类问题可能收益最大——这类问题没有唯一正解,但不同方案的隐性 trade-off 容易被单一视角掩盖。而事实检索类问题,比如"Python 3.12 什么时候发布",双人辩论的价值就有限。

另一个没展开的问题是成本。两轮 Claude 调用加一轮裁判,是 3 倍 token 消耗。作者显然觉得这笔开销值得,但规模化使用时的预算控制策略,工具本身似乎没有内置。

WhaleCouncil 目前以 CLI 形态存在,面向的显然是每天和模型打交道的开发者。它的产品逻辑很清晰:把"多模型交叉验证"从意志力消耗型任务,变成可一键执行的流程。这个定位本身也说明了一件事——AI 辅助工作的下一个优化方向,可能不是更强的单点模型,而是更好的模型协作机制

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
纳税起征点调整!2026年1月1日起执行

纳税起征点调整!2026年1月1日起执行

新浪财经
2026-05-25 03:41:31
双曲线发力,上汽大众“全能源”布局开拓新境界

双曲线发力,上汽大众“全能源”布局开拓新境界

车市雷达
2025-12-06 15:53:13
西班牙公布世界杯26人名单:亚马尔带伤入选!皇马0人 赫伊森无缘

西班牙公布世界杯26人名单:亚马尔带伤入选!皇马0人 赫伊森无缘

我爱英超
2026-05-25 18:54:10
稻城亚丁景区:违规放行员工已被处理,禁止社会车辆进入景区

稻城亚丁景区:违规放行员工已被处理,禁止社会车辆进入景区

映射生活的身影
2026-05-25 16:55:04
演都不演了,出征前一天香港女航天员遭遇恶心一幕,令人愤怒不已

演都不演了,出征前一天香港女航天员遭遇恶心一幕,令人愤怒不已

秋姐居
2026-05-25 19:47:13
郑钦文泪洒发布会:这是一场沉重的失利,考虑从低级别赛事打起

郑钦文泪洒发布会:这是一场沉重的失利,考虑从低级别赛事打起

全景体育V
2026-05-25 21:39:23
多名院士呼吁停止食用,比肥肉还伤血管,转告父母,趁早撤下餐桌

多名院士呼吁停止食用,比肥肉还伤血管,转告父母,趁早撤下餐桌

健康之光
2026-05-25 18:32:03
真人秀女星自曝染怪病:喉咙里长了"性传播癣"

真人秀女星自曝染怪病:喉咙里长了"性传播癣"

生活观察员啊
2026-05-24 00:14:16
山西矿难,一场早有预兆的祸事

山西矿难,一场早有预兆的祸事

凤凰WEEKLY
2026-05-25 10:44:39
最应被铭记的中国矿难事故:死亡数全球第一,震惊国内外

最应被铭记的中国矿难事故:死亡数全球第一,震惊国内外

网易新闻出品
2026-05-25 13:17:51
深度|赴纽约主持重磅会议、10年来首访加拿大,中国外长跨洋之旅有何看点?

深度|赴纽约主持重磅会议、10年来首访加拿大,中国外长跨洋之旅有何看点?

上观新闻
2026-05-25 21:41:15
韩国大学教授课上发表离谱言论:韩国女性十人中有八人靠性交易赚零花钱…

韩国大学教授课上发表离谱言论:韩国女性十人中有八人靠性交易赚零花钱…

奋斗在韩国
2026-05-25 13:14:27
韦国清之子公开澄清:网传韦国清阻碍粟裕平反,与事实不符

韦国清之子公开澄清:网传韦国清阻碍粟裕平反,与事实不符

人生录
2026-05-25 19:02:18
BBA电动化反击战,上汽奥迪以“中国式创新”破局

BBA电动化反击战,上汽奥迪以“中国式创新”破局

车市雷达
2026-01-09 14:22:03
洋葱立大功!医生发现:洋葱或对3种慢性病有好处!可以常吃

洋葱立大功!医生发现:洋葱或对3种慢性病有好处!可以常吃

芹姐说生活
2026-05-25 14:19:45
没有大模型、没有自有流量,他靠什么把广告投放炼成千亿金矿?

没有大模型、没有自有流量,他靠什么把广告投放炼成千亿金矿?

机器之心Pro
2026-05-24 14:01:54
半导体大利好!13家先进封装集体涨停,高盛提前埋伏5家低至40亿

半导体大利好!13家先进封装集体涨停,高盛提前埋伏5家低至40亿

长风价值掘金
2026-05-25 20:35:03
越野强、城市稳,这才是纵横G700给出的豪华全能越野答案

越野强、城市稳,这才是纵横G700给出的豪华全能越野答案

AutoBusiness
2025-12-24 12:00:16
山西矿难,越扒越惊心

山西矿难,越扒越惊心

亮见
2026-05-25 13:45:17
市场走出了标准的股灾牛

市场走出了标准的股灾牛

曹多鱼的财经世界
2026-05-25 14:42:17
2026-05-26 00:23:00
固件更新中
固件更新中
有态度网友ytd
4660文章数 38关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

特朗普强制要求中东多国与以建交 称美伊谈判进展顺利

头条要闻

特朗普强制要求中东多国与以建交 称美伊谈判进展顺利

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

本地
亲子
旅游
公开课
军事航空

本地新闻

用云锦的方式,打开江苏南京

亲子要闻

还有多少“儿童牙膏”在玩概念游戏? | 新京报快评

旅游要闻

上海歆克勒 | 初夏田园乐 来金山廊下“摸个鱼”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版