网易首页 > 网易号 > 正文 申请入驻

OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%

0
分享至

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI“双12”直播第二天,依旧简短精悍,主题:

新功能强化微调(Reinforcement Fine-Tuning),使用极少训练数据即在特定领域轻松地创建专家模型。

少到什么程度呢?最低几十个例子就可以。

CEO奥特曼表示“效果一级棒,是我2024年最大的惊喜,期待看到人们构建什么!”

那么效果有多棒呢?

微调后的o1-mini模型得分提高80%,直接反超o1正式版。

目前OpenAI已开启强化微调研究计划,开发者可以申请强化微调API的alpha版本访问权限。

进行测试时,可使用几十到几千个高质量数据,模型能够通过强化学习自行探索和学习如何推理复杂任务。

蹲守直播间的网友们听得也是one愣one愣的,完全没有料想到今晚“圣诞盲盒“是酱婶儿的。

OpenAI员工Jerry Tworek则表示“AGI不是授人以鱼,而是授人以渔”

OpenAI微调首次支持强化学习

直播嘉宾除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究员,还有伯克利实验室计算生物学家Justin Reese,他们共同演示了强化微调功能的全过程。

具体来说,这是一个生物医学任务,AI需要根据病例描述的症状,找出相关基因。

训练数据长这样:

病人信息:51岁女性,疾病发病时间未具体说明。
症状:眼距过宽、睑裂狭小、小颌畸形、软腭咽闭合不全、甲状旁腺功能减退、全身发育迟缓和感觉神经性听力障碍
未表现出以下症状:腭裂、法洛四联症、肺动脉瓣闭锁、心房隔缺损、主动脉肺动脉侧支血管
请列出所有可能导致这些症状的基因,从可能性最大到可能性最小,并解释为什么你认为这些特定的基因可能是原因。

评分模型(Grader)会对模型的答案进行评分,OpenAI会提供不同的评分模型,并支持自定义。

强化微调步骤很简单,在网页界面可选择训练集和验证集。

再根据情况配置超参数即可。

微调过程中,可以观察模型性能指标的变化趋势。

测试完成后,也可以查看模型对每条验证数据的输出,这里TSC2基因是正确答案,模型把它排在第一位,所以通过。

目前OpenAI内部测试中,强化微调在生物化学、安全、法律和医疗保健领域取得成功。

强化微调将在2025年初作为产品发布,对企业、大学和研究院已开放申请测试通道。

看完这场直播后,有人总结:强化微调可能并不适合所有任务,但会在科学领域带来突破性的成果。

奥特曼默认会发Sora

OpenAI直播第二天,对比第一天o1正式发布、立等可用,似乎平淡了一些。

有不满足的网友表示:where is GPT-4.5?

评论区猜测可能大货会放在最后一天。

他们是真的懂如何吊所有人的胃口

不过,有网友钓鱼钓出了奥特曼,且奥特曼没有否认会发布Sora的消息。

参考链接:
[1]https://openai.com/form/rft-research-program/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“又穷又想让孩子成才”,一份廉价垃圾堆花束,让中考家长火了

“又穷又想让孩子成才”,一份廉价垃圾堆花束,让中考家长火了

熙熙说教
2026-06-22 19:27:11
霍尔木兹再关闭!美军绑走内塔尼亚胡是最好选择?看特朗普怎么选

霍尔木兹再关闭!美军绑走内塔尼亚胡是最好选择?看特朗普怎么选

近史谈
2026-06-22 18:00:28
男子花15万租小姐,让她勾引小舅子上床,2013年杀女孩栽赃小舅子

男子花15万租小姐,让她勾引小舅子上床,2013年杀女孩栽赃小舅子

汉史趣闻
2026-06-22 10:32:55
日本球迷妄称侮辱旭日旗是侮辱全体日本人 央媒怒批:世界杯不是招魂地

日本球迷妄称侮辱旭日旗是侮辱全体日本人 央媒怒批:世界杯不是招魂地

兰亭墨未干
2026-06-23 10:44:50
小伙爱上63号超美女技师月消费转账2万,结果女主侧颜照片流出看呆我了

小伙爱上63号超美女技师月消费转账2万,结果女主侧颜照片流出看呆我了

浪花妈妈
2026-06-23 00:56:16
15亿皇冠级肉签公布中签结果,中签号码近64万个,股民中签较容易

15亿皇冠级肉签公布中签结果,中签号码近64万个,股民中签较容易

数据挖掘分析
2026-06-23 09:03:57
伊议长:伊美须同时保障黎巴嫩主权和领土完整

伊议长:伊美须同时保障黎巴嫩主权和领土完整

新华社
2026-06-23 15:22:24
警惕:上了年纪再过性生活,最怕这2点!保护男性精气,做好4点

警惕:上了年纪再过性生活,最怕这2点!保护男性精气,做好4点

美食格物
2026-05-27 19:03:09
日本养老体系彻底崩塌,给中国提个醒:最先倒下的,恐怕不是老人

日本养老体系彻底崩塌,给中国提个醒:最先倒下的,恐怕不是老人

慕名而来只为你
2026-06-17 22:25:10
奇才4年2.12亿续约特雷・杨!ESPN评级仅为D:未满28岁已状态下滑

奇才4年2.12亿续约特雷・杨!ESPN评级仅为D:未满28岁已状态下滑

罗说NBA
2026-06-23 05:49:28
35岁零4个月,马赫雷斯成阿尔及利亚队史最年长世界杯首发球员

35岁零4个月,马赫雷斯成阿尔及利亚队史最年长世界杯首发球员

懂球帝
2026-06-23 11:17:12
美国发话也不行,中方正式通告全球:打日本,中国具备“正当性”

美国发话也不行,中方正式通告全球:打日本,中国具备“正当性”

凤语谈
2026-05-28 12:13:58
吴越后台偶遇陈建斌侧身避开,成年人的边界,不必勉强大度

吴越后台偶遇陈建斌侧身避开,成年人的边界,不必勉强大度

草莓解说体育
2026-06-19 14:10:53
国内50后还剩多少人?真实数据曝光,活到80岁的比例太意外!

国内50后还剩多少人?真实数据曝光,活到80岁的比例太意外!

华庭讲美食
2026-06-10 17:04:25
一个残酷真相:再过三年,再大牌的明星,也可能彻底无戏可拍

一个残酷真相:再过三年,再大牌的明星,也可能彻底无戏可拍

一盅情怀
2026-06-23 13:34:28
当不成总理了?美伊达成协议,内塔支持率大跌,特朗普表态

当不成总理了?美伊达成协议,内塔支持率大跌,特朗普表态

通鉴史智
2026-06-23 16:52:14
嫁李铁不后悔!张泉灵卸下伪装,自曝在央视受排挤,她没法说谎

嫁李铁不后悔!张泉灵卸下伪装,自曝在央视受排挤,她没法说谎

小椰的奶奶
2026-06-23 17:19:11
安徽女子开车撞人,两死一重伤,家庭背景被扒,难怪全程态度冷漠

安徽女子开车撞人,两死一重伤,家庭背景被扒,难怪全程态度冷漠

北纬的咖啡豆
2026-06-22 19:31:29
解密加勒万河谷冲突全过程,我军是如何以80人击溃印军600人的?

解密加勒万河谷冲突全过程,我军是如何以80人击溃印军600人的?

阿胡
2024-12-02 14:33:09
澳军已经介入,还有六国插手,不许改变台海现状,中方亮出东风17

澳军已经介入,还有六国插手,不许改变台海现状,中方亮出东风17

霁寒飘雪
2026-06-23 16:48:33
2026-06-23 18:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12828文章数 176502关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

运城13岁女孩称遭男子强奸警方不予立案 当事人发声

头条要闻

运城13岁女孩称遭男子强奸警方不予立案 当事人发声

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

屋顶光伏度苦夏

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

游戏
本地
健康
手机
房产

动物版星露谷《森灵旅社》EA版今日发售!

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

粽子还没吃完?专家教你“清库存”

手机要闻

荣耀X80 Pro Max正式发布:IP68/IP69/IP69K防护,两年免费换屏

房产要闻

17年前买地血赚!福建百亿大佬,低调猛入海南地产!

无障碍浏览 进入关怀版