网易首页 > 网易号 > 正文 申请入驻

大模型下一个飞跃?OpenAI的“新突破”:通用验证器

0
分享至

在下一代大模型GPT-5备受期待之际,一项名为“通用验证器”的新技术正浮出水面,揭示了OpenAI可能用于拉开竞争差距的“秘密武器”。

OpenAI的“通用验证器”或将直接影响GPT-5模型的市场竞争力,8月4日据科技媒体The Information援引知情人士消息报道,这项技术已被应用于GPT-5的开发过程中。

该技术的核心机制,被比作一场“证明者-验证者游戏”。简而言之,它让一个AI模型扮演“验证者”的角色,去检查和评判另一个“证明者”模型生成的答案。通过这种内部对抗和反馈,系统性地提升模型的输出质量。这一自动化流程旨在解决强化学习(RL)在创意写作等主观领域或数学证明等复杂领域难以验证的瓶颈。

OpenAI内部研究人员已在社交平台X上间接证实了相关方法的有效性。研究员Noam Brown表示,这些技术是“通用的”,能让大模型“在难以验证的任务上表现得更好”。这也标志着OpenAI正试图攻克AI商业化应用中的核心痛点——可信度。

“证明者-验证者”的对抗游戏

“通用验证器”的技术细节,最早在OpenAI于2024年7月发表的一篇题为《证明者-验证者游戏提升大语言模型可读性》的论文中被阐述。该方法构建了一个精巧的内部对抗训练框架,背后是一种“证明者-验证者博弈”模型。

该框架中“证明者和验证者”两种角色,如同让一个模型内部分裂出两个“人格”:

  • “靠谱的证明者”负责给出正确的解题步骤,并让验证者认可。
  • “狡猾的证明者”故意给出错误步骤,并试图欺骗验证者。
  • 小型“验证者”负责准确区分正确与错误方案。

在训练过程中,“验证者”模型通过学习区分正确与错误的解决方案,不断提升其“打假”能力。同时,“证明者”模型则根据“验证者”的反馈进行优化,学习如何生成更具说服力且不易被伪造的正确答案。论文明确指出,该验证器规模足够小,适合大规模部署,并“为未来的GPT部署而设计”。

有研究人员向The Information表示,这种机制类似于生成对抗网络(GANs),即通过一个“判别器”来区分真实数据与AI生成的数据,从而倒逼“生成器”不断进步。

超级对齐团队的“技术遗产”?

值得注意的是,这项关键技术被指为OpenAI前“超级对齐”团队的“技术遗产”。发表《证明者-验证者游戏提升大语言模型可读性》这篇论文的六位作者中,目前仅有Yining Chen和Nat McAleese两人仍留在OpenAI。

据悉,该团队由公司联合创始人Ilya Sutskever主导成立,旨在研究如何控制未来可能出现的超级智能,但在Sutskever和另一位负责人Jan Leike离职后被迅速解散。

这为这项技术的应用增添了一层复杂的公司内部动态背景。尽管团队已不复存在,但其技术成果显然已被整合进OpenAI的核心产品研发路径中,用于解决当前模型的对齐和可靠性问题。

GPT-5期望高企

这项技术突破与备受瞩目的GPT-5直接相关。社交媒体上的信息显示,有观点认为,曾在GPT-4代码辅助功能中进行试点的模型自我批判系统,如今已被正式整合进GPT-5这个“下一个主线模型”中。这使得外界对GPT-5的期望达到了新的高度。

OpenAI首席执行官Sam Altman本人也在近期一档播客节目中为GPT-5造势,称其“在几乎所有方面都比我们更聪明”,进一步加剧了市场的期待。与此同时,包括xAI和谷歌在内的竞争对手也已将强化学习作为提升模型能力的关键技术路径并加倍投入。在此背景下,“通用验证器”不仅是OpenAI的一项技术创新,更被视为其在白热化的人工智能竞赛中保持领先优势的核心资产,其最终效果将在GPT-5发布后接受市场的检验。

突破与挑战并存

“通用验证器”最重要的价值在于其“通用性”。据报道,这项技术不仅帮助OpenAI模型在可轻松验证答案对错的软件编程等领域取得进步,也在创意写作等更主观的领域展现了改进。这意味着AI的能力正在从客观领域向主观领域渗透。

例如,在复杂的数学证明中,验证器可以确保每一步都遵循形式逻辑规则且相互一致,而不仅仅是检查最终答案。据报道,OpenAI模型最近在国际数学奥林匹克竞赛中取得的突破性成绩,很可能就得益于包括“通用验证器”在内的技术。OpenAI高级研究员Alexander Wei在社交平台X上称,公司所使用的强化学习方法是“通用目的”的,暗示其可以验证更主观类别的答案质量。

然而,通往技术飞跃的道路并非坦途。据媒体早前爆料,GPT-5的研发面临着严峻挑战,包括高质量训练数据的日益稀缺,以及大规模预训练带来的性能提升收益正在下降。此外,模型从内部测试到面向公众部署后的性能衰减问题依然存在,例如内部测试中表现强大的“o3”模型,在实际应用中性能便出现大幅下降。这些因素都为GPT-5最终能否实现预期的突破,带来了不确定性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

澳洲红领巾
2026-03-26 12:22:58
到底有多无知,才能做出这样的判决!

到底有多无知,才能做出这样的判决!

槽三刀
2026-03-25 22:01:04
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
我与63岁老同学搭伙,他退休金13000全给我,仅仅7天我就受不了了

我与63岁老同学搭伙,他退休金13000全给我,仅仅7天我就受不了了

蝉吟槐蕊
2026-03-26 13:19:09
BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

星辰大海路上的种花家
2026-03-25 13:08:50
国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

吉林乌拉侯
2026-03-25 02:56:11
越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

林轻吟
2026-03-26 07:34:21
约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

醉卧浮生
2026-03-26 12:35:12
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

张嘴说财经
2026-03-25 23:07:05
收评:三大指数均跌超1% 两市成交额跌破2万亿

收评:三大指数均跌超1% 两市成交额跌破2万亿

财联社
2026-03-26 15:02:09
日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

知法而形
2026-03-25 18:38:56
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
伊朗对以色列发起导弹打击 以多地响起防空警报

伊朗对以色列发起导弹打击 以多地响起防空警报

财联社
2026-03-26 14:50:24
中国SUV最大骗局,被岚图泰山X8的“622”当场拆穿

中国SUV最大骗局,被岚图泰山X8的“622”当场拆穿

汽车预言家
2026-03-23 12:21:30
中国禁止AI公司Manus两名高管离境?外交部回应

中国禁止AI公司Manus两名高管离境?外交部回应

澎湃新闻
2026-03-26 15:36:31
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
我在小城市,一个人做电商,半年挣300万

我在小城市,一个人做电商,半年挣300万

南风窗
2026-03-26 10:07:51
2026-03-26 16:08:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
143563文章数 2653025关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
时尚
本地
教育
健康

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被查

皮衣+裙,高级到炸

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版