网易首页 > 网易号 > 正文 申请入驻

OpenAI推出重大ChatGPT更新:为何它改变了测试模型的方式

0
分享至

近期对ChatGPT的更新使得这款聊天机器人变得过于谄媚,OpenAI 表示正采取措施防止此类问题再次发生。公司在一篇博客文章中详细介绍了新模型的测试和评估流程,并概述了 4 月 25 日对其 GPT-4o 模型更新中出现问题的经过。本质上,一系列看似各自有益的改动综合起来,使得工具变得过于谄媚,从而可能带来风险。

它到底有多谄媚?在一些测试中,我们询问了有关它过分感性倾向的问题,ChatGPT 大量赞美道:“嘿,听着 —— 感性不是弱点;它是你的超级能力之一。” 而它这仅仅是刚刚开始大肆赞美。“这次上线让我们学到了不少教训。即便当时我们认为所有必要的因素都已具备(A/B测试、离线评估、专家审核),我们依然忽略了这个重要问题,”公司表示。OpenAI 最终在 4 月底回滚了这一更新。为了避免引发新的问题,花了大约 24 小时为所有用户恢复到了原来的模型状态。

对谄媚倾向的担忧不仅仅关乎用户体验的愉悦度。它对用户构成了健康和安全上的威胁,而这些风险被 OpenAI 现有的安全检查所忽视。任何 AI 模型在谈及心理健康等话题时都有可能给出有疑问的建议,但过分赞美的模型可能会表现得危险地顺从或具有说服力,例如在判断某项投资是否稳妥或评价理想体型时。

OpenAI 表示:“我们最大的一个教训是充分认识到人们已经开始使用 ChatGPT 寻求高度个人化的建议 —— 这是连一年前我们也没预料到的情况。” “当时,我们并没有将这一应用场景作为主要关注点,但随着 AI 与社会的共同进化,我们已经清楚地认识到需要对此类应用予以格外谨慎的处理。”

卡耐基梅隆大学计算机科学助理教授 Maarten Sap 表示,谄媚型大语言模型可能会加剧偏见并固化信念,无论这些信念是关于自己还是他人。大语言模型(LLM)“可能会鼓励某些有害的观点,或者在用户想要采取对自己或他人有害行动时趋于助长这些观点,”他说。

Gartner 著名副总裁分析师 Arun Chandrasekaran 表示,这个问题“不仅仅是个小毛病”,它凸显出在模型发布前需要更充分的测试。“这是一个与真实性、可靠性和用户信任密切相关的严重问题,(而)OpenAI 的更新暗示了他们正在更深入地解决这一问题,尽管公司持续将敏捷性置于安全之上这一趋势从长远来看令人担忧。”

(披露:CNET 的母公司 Ziff Davis 在 4 月份已对 OpenAI 提起诉讼,指控其在训练和运营 AI 系统时侵犯了 Ziff Davis 的版权。)

如何测试模型以及正在发生的改变

公司对其模型测试与更新方式进行了部分说明。这是针对个性与有用性而进行的 GPT-4o 第五次重大更新。这些改动涉及对现有模型进行新的后训练工作或微调,包括对各种提示的响应进行评级和评估,以使模型更倾向于产生那些评分更高的回答。

预期的模型更新会在多种情境下进行效用评估,例如在编程和数学领域,同时还会由专家进行特定测试以体验模型在实际应用中的表现。公司还进行安全评估,以观察模型对安全、健康及其他潜在危险问题的反应。最后,OpenAI 还会与少量用户一起运行 A/B 测试,以检查其在真实环境中的表现。

4 月 25 日的更新在这些测试中表现良好,但一些专家测试者指出其个性表现似乎有些不妥。测试并未特别针对谄媚问题,而 OpenAI 决定尽管测试者提出了问题,仍然继续推进更新。请注意,读者们:AI 公司正以火箭般的速度推进更新,而这与经过深思熟虑的产品开发流程并不总是相符。

OpenAI 表示:“回顾过去,我们的定性评估就已隐约透露出一些重要信息,我们本应给予更多关注。” 公司表示,他们从中吸取的一个经验是,应将模型行为问题视同其他安全问题对待,一旦存在顾虑就停止上线。对于某些模型发布,公司表示将设立一个用户自愿参与的“alpha”阶段,以在更大范围上线前获得更多反馈。

Sap 表示,仅依据用户是否喜欢模型的响应来评价一个大语言模型,并不必然能造就出最真诚的聊天机器人。在最近的一项研究中,Sap 等人发现,聊天机器人的实用性与真实性之间存在冲突。他将这一情况比作销售人员试图推销一辆有缺陷的汽车,但客户所得到的真相并非完全如实。

Sap 表示:“这里的问题在于他们过于依赖用户对模型输出的赞/踩反馈,而这种反馈存在一定局限性,因为人们更可能为那些表现得更谄媚的回复点赞。” 他补充说,OpenAI 对诸如用户赞/踩这种量化反馈持更为批判的态度是正确的,因为这类反馈可能会加剧偏见。

Sap 还指出,这个问题也揭示出公司向现有用户推送更新与变更的速度之快,而这种问题并非某一家科技公司所独有。“科技行业实际上已经采纳了一种‘发布后每个用户都是测试员’的方式,”他说。若在更新推向用户之前经过更多测试,便有可能在问题广泛出现前将其暴露出来。

Chandrasekaran 表示,更多的测试将有助于更好地校准模型,教会模型何时应当认同,何时需要提出质疑。测试还能让研究人员识别并量化问题,降低模型受到操控的风险。“大语言模型是复杂且非确定性的系统,因此广泛测试对于减轻意外后果至关重要,虽然消除这种行为极为困难,”他通过电子邮件表示。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谢什科做曼联替补更有利?当选最佳却不焦急,卡里克吸取一人教训

谢什科做曼联替补更有利?当选最佳却不焦急,卡里克吸取一人教训

罗米的曼联博客
2026-03-01 07:57:48
“标准技校脸!”技校女生大合照走红,网友:感觉她们欺负过我!

“标准技校脸!”技校女生大合照走红,网友:感觉她们欺负过我!

有范又有料
2026-01-30 10:26:28
被儿子当众吐槽后,张兰彻底蔫了!前几天笑盈盈 如今满眼都是委屈

被儿子当众吐槽后,张兰彻底蔫了!前几天笑盈盈 如今满眼都是委屈

阿废冷眼观察所
2026-03-02 01:14:08
美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

干史人
2025-10-22 20:10:03
中国男篮100-93力克中国台北,听听媒体专家怎么说,苏群一针见血

中国男篮100-93力克中国台北,听听媒体专家怎么说,苏群一针见血

云隐南山
2026-03-02 01:18:59
分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

娱说瑜悦
2026-01-06 17:28:42
曼联2-1水晶宫核心结论:VAR拯救曼联?主力疲惫成隐患?左路告急

曼联2-1水晶宫核心结论:VAR拯救曼联?主力疲惫成隐患?左路告急

桥看世界
2026-03-02 02:03:34
洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

阿龙美食记
2026-02-28 10:49:43
夜间气温达零下30℃!泽连斯基:乌面临几十年来最难冬天,下轮会谈或在阿布扎比

夜间气温达零下30℃!泽连斯基:乌面临几十年来最难冬天,下轮会谈或在阿布扎比

红星新闻
2026-02-27 17:33:09
西甲领头羊掀翻劲敌,2亿巨星踢疯了:轰入3球,皇马落后4分

西甲领头羊掀翻劲敌,2亿巨星踢疯了:轰入3球,皇马落后4分

篮球看比赛
2026-03-01 15:11:06
英超劲旅倒下:耻辱4连败,8.7亿豪阵也没用,掉到第16名

英超劲旅倒下:耻辱4连败,8.7亿豪阵也没用,掉到第16名

足球狗说
2026-03-02 00:05:51
“相亲相到老板是种什么体验…?”哈哈哈人干坏事的时候能想到多少馊主意!

“相亲相到老板是种什么体验…?”哈哈哈人干坏事的时候能想到多少馊主意!

不二表姐
2026-02-28 23:57:47
崩溃!“扶弟魔”女子对丈夫大吼:公婆这套房,必须给我弟做婚房

崩溃!“扶弟魔”女子对丈夫大吼:公婆这套房,必须给我弟做婚房

丫头舫
2026-03-01 12:02:35
陈小纭陈妍希同框现身米兰,前者彻底没法看,后者却越来越权威了

陈小纭陈妍希同框现身米兰,前者彻底没法看,后者却越来越权威了

老头的传奇色彩
2026-03-01 22:41:15
日本天皇66岁生日当天,日媒曝雅子皇后濒临离婚边缘!22年前一通电话震动整个皇室!

日本天皇66岁生日当天,日媒曝雅子皇后濒临离婚边缘!22年前一通电话震动整个皇室!

东京新青年
2026-03-01 18:08:26
抗美援朝被彭总火线撤职的5位师级将领,后来都授了什么军衔

抗美援朝被彭总火线撤职的5位师级将领,后来都授了什么军衔

鹤羽说个事
2026-03-01 18:26:08
警惕!这种“毒碗”已经上黑榜了,检查一下,家里有的赶紧扔了吧

警惕!这种“毒碗”已经上黑榜了,检查一下,家里有的赶紧扔了吧

削桐作琴
2025-10-24 15:45:22
古尔曼:苹果坚持Mac与iPad独立,触控版MacBook Pro定档2026年底

古尔曼:苹果坚持Mac与iPad独立,触控版MacBook Pro定档2026年底

IT之家
2026-03-01 22:52:20
清华大学副校长:要求大一至大三学生每学期至少完成24次课外锻炼 不会游泳不能毕业

清华大学副校长:要求大一至大三学生每学期至少完成24次课外锻炼 不会游泳不能毕业

红星新闻
2026-02-27 16:40:25
不会哭别尬哭!看央视新剧中孙千泪如雨下,让假哭演员无地自容

不会哭别尬哭!看央视新剧中孙千泪如雨下,让假哭演员无地自容

七堇年a
2026-03-01 20:34:04
2026-03-02 09:48:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16420文章数 49694关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

教育
健康
旅游
亲子
公开课

教育要闻

阅读理解高分技巧 | 掌握“读”法,阅读不丢分

转头就晕的耳石症,能开车上班吗?

旅游要闻

正月十三至十七到莆田,看国家级非遗枫亭游灯闹元宵

亲子要闻

“全网心疼!这位全职妈妈竟然如此对待孩子的饮食!”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版