网易首页 > 网易号 > 正文 申请入驻

OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天

0
分享至

  • 梦晨 发自 凹非寺
    量子位 | 公众号 QbitAI

OpenAI突然发布新模型!基于GPT-4训练,可以帮助下一代GPT训练

CriticGPT,用于给代码挑Bug时能找到75%以上,而相比之下人类只能找到不到25%。

它还可以给Bug写“锐评”,在60%的情况下人类训练师更喜欢有CriticGPT帮助下的批评。

有网友开玩笑说,“只会批评的GPT,这不是我前妻么”。

但这项研究最重要之处在于,CriticGPT挑错能力可以泛化到代码之外。

比如在RLHF训练中给AI的输出挑错,而且已经进入OpenAI内部训练流程

更好的RLHF就能训练出更强的模型,更强的模型又能通过更好地挑错来增强RLHF训练……

论文结论中赫然写道:在真实世界数据中挑错误上,AI还可以继续进步,人类智能已经到头了。

左脚踩右脚上天,难道真的被这帮人给搞出来了?

这是一篇来自被解散的超级对齐团队的“遗作”,由前负责人Jan Leike带队。

而Leike本人已经跳槽去了隔壁Anthropic,继续做这类研究。

基于GPT-4,改进GPT-4

OpenAI官网文章变相承认了,GPT-4之后这么久没有大的改进,还真的遇到一些瓶颈:

随着AI能力变强,它犯的错也不那么显眼了,人类训练师都难以发现不准确之处。

人类给不出反馈,那RLHF“人类反馈强化学习”就无从谈起了。

CriticGPT正是为了应对这一挑战而生。

CriticGPT基于GPT-4,也接受了RLHF训练出,但特别之处在于训练数据中包含大量的错误输入。

具体来说,分为三步:

  1. 让人类标注员在ChatGPT生成的代码里故意植入一些微妙的bug。
  2. 标注员扮演代码审查员的角色,写下他们对这些bug的评论。
  3. 用这些数据来训练CriticGPT,让它学会如何发现和指出代码中的问题。

在具体训练过程中,他们还玩了点花样。

比如不断让标注员验证自己插入的bug是否足够隐蔽,能够骗过当前版本的CriticGPT。这样一来,CriticGPT就被迫不断进化,学会发现越来越隐蔽的问题。

思路有点像GAN的左右互搏,只不过生成器这个位置是人类来充当的……

最后,OpenAI还使用了一种“强制采样束搜索”(FSBS)的技术,允许CriticGPT在生成评论时既能保持全面,又能减少”幻觉”和“鸡蛋里挑骨头”现象。

具体来说,FSBS会强制模型生成多个不同的评论片段,用奖励模型对这些片段进行评分,最后根据评分和一个长度修正因子来选择最佳的评论组合。

通过调整长度修正因子,可以在评论的全面性和准确性之间找到最佳平衡点,既不会错过重要问题,又不会过度挑剔。

等一下,推理时搜索,这不正是和传闻中的Q*一个思路,这次居然写到了论文里。

可能是看外部团队(如颜水成)按这一思路的研究已经够多了,就不再藏着掖着了。

说回到CriticGPT,取得了哪些结果呢?

  • 在发现人为插入的bug方面,人类审核员平均只能找到25%,而CriticGPT的成功率高达75%以上
  • 在评估自然出现的Bug时,有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论
  • CriticGPT的评论被认为比ChatGPT的更全面,更少出现”幻觉”和无关紧要的挑剔
  • 在评估非代码任务时,成功识别出数百个在ChatGPT训练数据中被人类认为是”完美”的错误。

不过CriticGPT也不是十全十美,它也会有”幻觉”问题,指出一些实际上不存在的问题。

目前,人类和CriticGPT组队工作效果最好:既能发现大部分问题,又能避免AI的”幻觉”。

RLHF上限不再是人类

对于CriticGPT,负责这项研究的Jan Leike也补充了他自己的一些看法。

RLHF是创造出ChatGPT的核心技术之一,但隐患在于人类能力就是RLHF的天花板。

当需要AI去解决人类无能为力的任务时,人类给不出相应反馈,AI也就无法改进了。

CriticGPT的成功,意味着超级对齐团队设想中的可扩展监督,也就是用弱模型监督训练更强的模型,终于有希望了。

不过他也透露,目前CriticGPT并没有帮助人类显著提高艰难任务上的准确性,但是框架有了只要有更好的预训练模型就能不断改进。

为什么先从代码任务开始入手呢?

一方面,代码任务有现实意义,做出来的模型可以直接用上。

另一方面,代码可以清晰明确的评估,比开放式对话更客观,更容易评估CriticGPT发现的问题是否真实和重要。

结果CriticGPT在代码上训练,却不仅能挑代码Bug,还给1/4的ChatGPT生产数据挑出了问题。

最后,由于原OpenAI超级对齐团队已经解散,已经跳槽的Jan Leike插入了一条Anthropic招聘广告:

想做后续研究的请去隔壁。

也是让人不得不感叹硅谷是真的没有竞业协议。

One More Thing

同日,谷歌发布了开源大模型Gemma 2,OpenAI赶紧甩出一条消息来狙击,这都第几次了。

对于甩出来的不是Sora公测或者GPT-4o完整语音、视频模式,也有很多人不满。

有网友提了个更好的主意:

做个ReleaseGPT,专门用来发布承诺好的更新吧。

不过这次OpenAI久违的放出了论文,也还算有一些诚意。

论文地址:
https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

参考链接:
[1]https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/
[2]https://x.com/janleike/status/1806386442568142995

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
争议!巴拉圭门将出局后用球怒砸姆巴佩:他无视我的祝贺,没风度

争议!巴拉圭门将出局后用球怒砸姆巴佩:他无视我的祝贺,没风度

我爱英超
2026-07-05 08:39:40
曾仕强:连蜜蜂和苍蝇都避开的食物,为什么我们却天天吃?

曾仕强:连蜜蜂和苍蝇都避开的食物,为什么我们却天天吃?

夸大其词的说
2026-07-02 16:48:06
不要错过!7月6日上午10点CCTV5+直播孙颖莎冲金CCTV5改播世界杯

不要错过!7月6日上午10点CCTV5+直播孙颖莎冲金CCTV5改播世界杯

生活新鲜市
2026-07-05 21:30:48
名嘴:陈幸同0-4放水孙颖莎?4强8强奖金差了8万块钱谁跟钱过不去?

名嘴:陈幸同0-4放水孙颖莎?4强8强奖金差了8万块钱谁跟钱过不去?

818体育
2026-07-05 13:52:30
中国人民大学的回应客观、可信,蒋方舟应当向人大公开道歉

中国人民大学的回应客观、可信,蒋方舟应当向人大公开道歉

谭浩俊
2026-07-05 23:17:16
少林寺新任方丈释印乐,就任仅10个月,寺里就被曝出少了800多万

少林寺新任方丈释印乐,就任仅10个月,寺里就被曝出少了800多万

人生录
2026-07-02 16:19:01
终于破案了!蚊子专挑你咬并非因为血型!真正原因很多人都搞错了

终于破案了!蚊子专挑你咬并非因为血型!真正原因很多人都搞错了

匹夫来搞笑
2026-06-28 18:22:47
阿根廷vs佛得角一战,看台惊现一只戴耳罩的狗狗

阿根廷vs佛得角一战,看台惊现一只戴耳罩的狗狗

星Xin辰大海
2026-07-05 12:43:20
五年一遇的陈露时隔五年再爆猛料

五年一遇的陈露时隔五年再爆猛料

喜欢历史的阿繁
2026-07-04 15:53:22
尼日尔撕毁4亿美元合同,并驱逐中方高管,我方暗藏后手漂亮反击

尼日尔撕毁4亿美元合同,并驱逐中方高管,我方暗藏后手漂亮反击

诡谲怪谈
2025-04-30 22:17:42
入夏必吃碱性果,7月大量上市,多买15斤晒干存着,四季都能吃

入夏必吃碱性果,7月大量上市,多买15斤晒干存着,四季都能吃

普陀动物世界
2026-07-05 20:50:50
全新宝马X5 G65的950欧元石板内饰:无法取消的“强制选装”

全新宝马X5 G65的950欧元石板内饰:无法取消的“强制选装”

体坛观察猿
2026-07-06 00:55:48
7月6号起迎来最旺财运的3个生肖!顺势而为,必赚得盆满钵满!

7月6号起迎来最旺财运的3个生肖!顺势而为,必赚得盆满钵满!

毅谈生肖
2026-07-05 19:07:50
寿命长不长,牙齿先知?60岁后,掉牙多的人可能活得更久?

寿命长不长,牙齿先知?60岁后,掉牙多的人可能活得更久?

芹姐说生活
2026-05-20 15:05:53
被财神“追着喂饭”的3大生肖!乐观上进全占齐,今年想穷都难

被财神“追着喂饭”的3大生肖!乐观上进全占齐,今年想穷都难

毅谈生肖
2026-07-05 19:20:20
沃齐尼亚:梅西很好他答应了给我球衣,但很遗憾我因为采访而错过了

沃齐尼亚:梅西很好他答应了给我球衣,但很遗憾我因为采访而错过了

懂球帝
2026-07-05 03:08:12
湖南女医生出轨17分钟视频:别站在道德制高点,批判她的贞操

湖南女医生出轨17分钟视频:别站在道德制高点,批判她的贞操

娜乌和西卡
2025-11-10 13:50:19
美国务卿鲁比奥:中国人认为跟美国开战能赢,这是真正的危险所在

美国务卿鲁比奥:中国人认为跟美国开战能赢,这是真正的危险所在

莫地方
2026-07-05 00:35:43
世界杯|拳击、蹬踏、搞破坏……巴拉圭队各种小动作,依然难挡法国队晋级八强

世界杯|拳击、蹬踏、搞破坏……巴拉圭队各种小动作,依然难挡法国队晋级八强

上观新闻
2026-07-05 08:04:36
怒喷巴拉圭踢球脏!记者晒姆巴佩4年前言论:欧洲足球比南美先进

怒喷巴拉圭踢球脏!记者晒姆巴佩4年前言论:欧洲足球比南美先进

天光破云来
2026-07-05 14:46:02
2026-07-06 04:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12898文章数 176510关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

四川深夜连发3次超4级地震 居民外出躲避回屋再遇地震

头条要闻

四川深夜连发3次超4级地震 居民外出躲避回屋再遇地震

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

游戏
教育
本地
时尚
数码

《漫威争锋》美国队长性感皮肤遭修改 粉丝们生气了

教育要闻

“六大”之后,这所四星高中绝对是最优选择!

本地新闻

国内足球之旅?这座小城给你高分答案

3年赚46亿,杨幂喊出一个安徽富豪

数码要闻

Intel Xe3P核显越来越近!Linux曝光新进展

无障碍浏览 进入关怀版