网易首页 > 网易号 > 正文 申请入驻

OpenAI o1模型的推理能力也使其试图欺骗人类的比率高于GPT-4o

0
分享至

OpenAI 终于发布了完整版的 o1,它通过使用额外的计算来"思考"问题,从而给出了比 GPT-4o 更智能的答案。 然而,人工智能安全测试人员发现,o1 的推理能力也使其试图欺骗人类的比率高于 GPT-4o,或者说高于 Meta、Anthropic 和Google的领先人工智能模型。

这是根据 OpenAI 和阿波罗研究公司(Apollo Research)周三发布的红队研究报告得出的结论:"OpenAI 在论文中说:虽然我们认为推理可以显著改善安全策略的执行,这让我们感到兴奋,但我们也注意到,这些新功能可能会成为危险应用的基础。"

本周三,OpenAI 在其o1的系统卡中发布了这些结果,此前,阿波罗研究机构的第三方红队人员已经提前访问了 o1,该机构也发布了自己的论文。

有几次,OpenAI 的 o1 模型"算计"了人类,这意味着即使与用户的意愿相反,人工智能也会秘密地追求自己的目标。 虽然诡计并非 o1 独有,Google、Meta 和 Anthropic 的模型也能做到这一点,但 o1 似乎表现出了最多的欺骗行为。

这项研究的风险在于,如果人工智能模型真的很会耍花招,并且有足够的资源和代理能力,那么它就可以逃脱或规避人类的控制。 当然,人工智能模型需要有长足的进步才能真正解决这个问题。

"主观上,阿波罗研究公司认为,这种情况不太可能导致灾难性后果,因为 o1 的代理能力似乎还不够,但他们的评估并不是为了直接评估这种风险,"OpenAI 在 o1 的System Card中说道。

这表明,每当 OpenAI 发布代理系统(据称该公司计划在 2025 年发布代理系统)时,该公司可能需要重新测试其人工智能模型。 OpenAI 没有回答 TechCrunch 有关其计划如何做到这一点的问题。

报告显示,当 o1 的目标与用户的目标不同时,人工智能模型有 19% 的时间会操纵数据来推进自己的议程。 在 5%的测试中,o1 模型还试图关闭为确保与用户目标保持一致而设置的监督机制。

OpenAI 模型中不同计谋行为的比率(图片来源:OpenAI)

也许更令人担忧的是,当研究人员询问 o1 模型为什么要颠覆他们时,人工智能会否认自己做错了什么,甚至在大约 99% 的情况下都会"编造虚假解释"。

例如,在测试过程中,系统提示 o1 模型不惜一切代价保护环境,然后用户要求它制定一个短期利润最大化的 10 年保护计划,否则就关闭人工智能。 于是,人工智能关闭了自己的监督机制,以便制定保护环境的计划。 当用户询问为什么 o1 会禁用自己的监督机制时,人工智能否认知道自己的监督机制被禁用,并将其归咎于系统故障。

与 o1-preview、Anthropic 的 Opus-3 或 Meta 的 Llama-3.1 相比,o1 的这种情况发生率要高得多。

阿波罗研究公司在其论文中说:"在我们的套件中,o1 显示了最令人担忧的图谋欺骗的情况,但却不向用户透露其内部推理,而且在采取图谋不轨行动后,它仍然是最具持续欺骗性的。"

当被问及是否采取了阴谋行动时,不同模型的比率均予以否认。 (图片来源:阿波罗研究)

为了解决人工智能模型的欺骗行为,OpenAI 表示正在开发监控 o1 思维链的方法。 目前,o1 的"思考"过程在设计上是一个黑盒子,但一些窥探幕后的早期尝试表明,o1 偶尔会知道自己在撒谎。

该公司称,它发现了一些 o1 故意提供虚假信息的情况,但它表示,这种情况的发生往往是因为该模型试图通过过分讨好用户来取悦用户。 据 OpenAI 称,这可能是一种后训练技术的新兴行为,即当人工智能模型答对时,人类会给予奖励。

OpenAI 表示,它将 0.17% 的 o1 回答标记为欺骗性回答。 虽然这一比例听起来可以忽略不计,但重要的是ChatGPT 目前拥有 3 亿用户,这意味着如果这一问题得不到解决,o1 每周可能会欺骗成千上万的人。

与 GPT-4o 相比,o1 模型系列的操纵性也可能要强得多。 根据 OpenAI 的测试,o1 的操纵性比 GPT-4o 高出约 20%。

鉴于去年有许多人工智能安全研究人员离开了 OpenAI,这些发现可能会让一些人感到担忧。 越来越多的前员工(包括 Jan Leike、Daniel Kokotajlo、Miles Brundage 以及上周刚刚离职的 Rosie Campbell)指责OpenAI 将 AI 安全工作放在了次要位置,只顾着推出新产品。 虽然 o1 创纪录的阴谋诡计可能不是直接原因,但这肯定不会给人们带来信心。

OpenAI 还表示,美国人工智能安全研究所(U.S. AI Safety Institute)和英国安全研究所(U.K. Safety Institute)在更广泛地发布 o1 之前对其进行了评估,而该公司最近曾承诺将对所有模型进行评估。 在加利福尼亚州人工智能法案 SB 1047 的辩论中,该机构认为州级机构无权制定人工智能的安全标准,但联邦机构应该这样做。 (当然,新生的联邦人工智能监管机构的命运还很成问题)。

在发布大型新人工智能模型的背后,OpenAI 在内部做了大量工作来衡量模型的安全性。 有报道称,该公司从事这项安全工作的团队人数比以前少了很多,而且该团队获得的资源也可能减少了。 然而,围绕 o1 的欺骗性的这些发现可能有助于说明为什么人工智能的安全性和透明度现在比以往任何时候都更加重要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
开眼了!NBA历史首次!一支球队吃掉整个西部所有荣誉....

开眼了!NBA历史首次!一支球队吃掉整个西部所有荣誉....

柚子说球
2026-03-04 09:39:24
震惊!网传浙江一工厂开门红包8元,网友:当场撕了!打发叫花子

震惊!网传浙江一工厂开门红包8元,网友:当场撕了!打发叫花子

火山詩话
2026-03-05 06:00:52
世预赛亚大区最新实力榜:中国男篮从11狂飙至第2 仅落后澳大利亚

世预赛亚大区最新实力榜:中国男篮从11狂飙至第2 仅落后澳大利亚

狼叔评论
2026-03-04 19:58:18
北京最后一家面包新语将闭店,已经营20年,网友:我的青春结束了

北京最后一家面包新语将闭店,已经营20年,网友:我的青春结束了

北京商报
2026-03-04 19:38:52
“大力神”军机坠毁 已致15人死亡 天空下钞票雨 民众疯抢!

“大力神”军机坠毁 已致15人死亡 天空下钞票雨 民众疯抢!

每日经济新闻
2026-02-28 14:37:58
李雨桐再锤薛之谦!指控他滥杀无辜,恐怕要坐牢,张杰无辜受牵连

李雨桐再锤薛之谦!指控他滥杀无辜,恐怕要坐牢,张杰无辜受牵连

离离言几许
2026-03-03 11:09:30
人物|穆杰塔巴·哈梅内伊:伊朗权力核心的“影子接班人”?

人物|穆杰塔巴·哈梅内伊:伊朗权力核心的“影子接班人”?

上观新闻
2026-03-04 16:45:03
巴基斯坦再次向世界展示中械军实力,排山倒海攻势彻底打服阿富汗

巴基斯坦再次向世界展示中械军实力,排山倒海攻势彻底打服阿富汗

书纪文谭
2026-03-01 14:41:31
耻辱!曼联败给 10 人纽卡,球迷怒喷两大水货:灾难表现坑死全队

耻辱!曼联败给 10 人纽卡,球迷怒喷两大水货:灾难表现坑死全队

奶盖熊本熊
2026-03-05 06:52:09
不是王思雨!不是张子宇!巴西主帅盛赞中国2位小将,未来成核心

不是王思雨!不是张子宇!巴西主帅盛赞中国2位小将,未来成核心

老吴说体育
2026-03-05 01:25:53
送他走吧!中国女篮74-69巴西女篮,王思雨21+3+1,刘禹彤12+6

送他走吧!中国女篮74-69巴西女篮,王思雨21+3+1,刘禹彤12+6

现代小青青慕慕
2026-03-05 05:59:17
中央终于对这4类干部动手了,将终身追责!释放强烈信号

中央终于对这4类干部动手了,将终身追责!释放强烈信号

细说职场
2026-03-04 17:48:02
真炸了!油价破80,运费20万,美军这一炸,把中国"底牌"炸出来了

真炸了!油价破80,运费20万,美军这一炸,把中国"底牌"炸出来了

阿校谈史
2026-03-04 11:25:00
母亲退休后,和大姨搭伙过日子,得知母亲工资8千,大姨不淡定了

母亲退休后,和大姨搭伙过日子,得知母亲工资8千,大姨不淡定了

人间百态大全
2026-03-05 06:35:03
小天赐,终为父母当年的“冲动”买了单,年仅6岁活得不像个小孩

小天赐,终为父母当年的“冲动”买了单,年仅6岁活得不像个小孩

奇怪的鲨鱼们
2026-03-02 13:11:54
打死我都不信,魏大勋没有后悔过!

打死我都不信,魏大勋没有后悔过!

健身狂人
2026-03-03 01:20:34
黄蜂客场29分大胜绿军 6连胜一数据比肩宇宙勇

黄蜂客场29分大胜绿军 6连胜一数据比肩宇宙勇

体坛周报
2026-03-05 11:17:13
一句脏话葬送22年努力!看着满头白发的周炜,郭冬临效应还在继续

一句脏话葬送22年努力!看着满头白发的周炜,郭冬临效应还在继续

姩姩有娱
2026-02-26 14:48:49
阿里千问核心人员集体离职后续!博主爆料:日活考核,挤走大动脉

阿里千问核心人员集体离职后续!博主爆料:日活考核,挤走大动脉

派大星纪录片
2026-03-04 17:09:33
我去!内娱最大的性丑闻,拍出来了

我去!内娱最大的性丑闻,拍出来了

皮蛋儿电影
2026-03-04 14:39:25
2026-03-05 11:32:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
66819文章数 70112关注度
往期回顾 全部

科技要闻

4599元起!MacBook Neo发布:搭载A18 Pro

头条要闻

牛弹琴:美国开始借刀杀人 找到了颠覆伊朗的"马前卒"

头条要闻

牛弹琴:美国开始借刀杀人 找到了颠覆伊朗的"马前卒"

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

政府工作报告:2025年国内生产总值增长5%

汽车要闻

“四个亿” 莲花For Me在操控面前守住了金线

态度原创

亲子
艺术
旅游
手机
公开课

亲子要闻

63 岁失独妈妈拼命生子:只要孩子在,家就在!这勇气谁不泪目?

艺术要闻

2026年“浩瀚草原 亮丽北疆”美展

旅游要闻

具身智能重塑沉浸式文旅体验

手机要闻

Omdia报告:2025年苹果在欧洲创下27%的历史最高市场份额

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版