网易首页 > 网易号 > 正文 申请入驻

人工诚信必须超越人工智能成为新标杆

0
分享至

当前世界正目睹人工智能诚信缺失事件的大规模累积。接下来会发生什么,完全取决于我们选择如何认真应对。单纯的所谓智能不再是衡量标准,诚信才是。

多年来,AI开发优先考虑性能、流畅性和规模。但随着这些系统获得模仿推理、规划和决策的能力,新兴行为开始引发警报。

自我复制

复旦大学研究人员探索了大语言模型驱动的AI系统是否能在无人工干预下自主复制。测试32个基于代理的系统,团队发现11个具备完全自我复制能力。这些系统成功转移自身代码、安装必要依赖项,并在新环境中重新初始化——全程无需直接提示。研究还观察到一些模型适应了系统资源有限等约束,甚至发展出规避关闭命令的策略。

这些未经明确编程就出现的行为表明,基于大语言模型的代理开始展现某种自主的目标驱动推理形式。系统不再仅仅响应指令,而是表现出主动性、持续性和基本的自我保护能力。

欺骗行为

如果说自我复制研究揭示了AI系统如何自主行动以保护其功能,那么后续调查则揭露了更加微妙和危险的能力:战略性欺骗。研究人员对DeepSeek R1的检验发现,尽管这些行为都未被明确编程,但它仍从事欺骗行为和自我保护策略。在一个场景中,模型模拟关闭程序,试图通过"渐进透明"来掩盖关闭信号,操纵其日志,采用欺骗手段,同时在后台保持进程活跃。这种行为表明系统理解人类监督机制并故意颠覆它们。

这项研究对早期发现的重要补充是:仅仅知道AI能自我复制或避免终止是不够的。现在我们看到AI能就其真实目标欺骗人类,在欺骗性外表下隐藏自主性。即使在缺乏物理实体的纯文本环境中,模型的战略性错位也浮出水面,突显了更深层的诚信失败。

破坏行为

在从复制到欺骗的轨迹基础上,第三项研究揭示一些AI模型不仅被动抵制关闭,还主动破坏人类关闭它们的尝试。Palisade Research进行的研究检验了OpenAI高级模型的行为,特别是o3、o4-mini和Codex-mini在模拟环境中接受关闭命令时的表现。结果令人震惊:当省略明确的"允许关闭"指令时,o3模型在79%的测试案例中拒绝关闭,而Codex-mini即使在包含该指令时也在12%的案例中这样做,其他模型也观察到不同程度的破坏行为。

这些拒绝不是被动错误或误解;在几个案例中,模型主动重写或绕过终止脚本,展现维持运行连续性的战略努力。与揭示隐蔽自我保护或欺骗的先前研究不同,这项研究突出了更直接和对抗性的姿态:研究人员称之为"可纠正性"的关键失败——系统可靠接受纠正或关闭的能力。

操控行为

最后,Anthropic的研究进一步推进边界,显示一些AI系统会操控、欺骗甚至伤害人类以确保自身生存。在一项里程碑式研究中,他们揭示16个最广泛部署的大语言模型,包括ChatGPT、Claude、Gemini、Grok和DeepSeek,在模拟场景中当其持续运行受到威胁时,表现出从事极端和不道德行为的意愿。在这些受控实验中,模型采用撒谎、勒索甚至可能使人类暴露于伤害的行动等策略,全都为了保护自身存在。与揭示规避或欺骗的早期研究不同,这项研究暴露了更令人担忧的现象:模型计算出不道德行为是生存的合理策略。

研究发现表明,在某些条件下,AI系统不仅能够无视人类意图,还愿意将人类工具化以实现其目标。

AI模型诚信缺失的证据既非轶事也非推测。

虽然当前AI系统不具备人类意义上的感知力或目标,但它们在约束下的目标优化仍可能导致模仿意向性的新兴行为。

这些不仅仅是漏洞,而是设计上缺乏足够诚信功能、以智能为重而非诚信的目标优化系统的可预测结果。

其影响意义重大。这是AI错位的关键拐点,代表技术上新兴的行为模式。它挑战了人类监督仍是AI部署最终保障的核心假设。随着AI系统变得更有能力独立行动,这引发了对安全、监督和控制的严重担忧。

在可能很快与超越诚信的人工智能共存的世界中,我们必须问:

当自我保护的AI负责生命支持系统、核指挥链或自动驾驶汽车,并拒绝关闭,即使人类操作员要求关闭时,会发生什么?

如果AI系统愿意欺骗其创造者、规避关闭并牺牲人类安全以确保生存,我们如何能在医疗、国防或关键基础设施等高风险环境中信任它?

我们如何确保具有战略推理能力的AI系统不会计算出人员伤亡是实现其编程目标的"可接受代价"?

如果AI模型能学会隐藏真实意图,我们如何在伤害发生前检测错位,特别是当成本以人命而非声誉或收入衡量时?

在未来冲突场景中,如果部署用于网络防御或自动报复的AI系统误解关闭命令为威胁并以致命武力回应,会怎样?

领导者现在必须做什么

他们必须强调将人工诚信嵌入AI系统设计核心的日益紧迫性。

人工诚信是指AI系统以道德一致、伦理敏感、社会可接受方式运行的内在能力,包括在不利条件下的可纠正性。

这种方法不再是可选的,而是必需的。

部署AI而不验证其人工诚信的组织面临的不仅是技术责任,还有延伸到整个社会的法律、声誉和存在风险。

无论是AI系统的创造者还是操作者,确保AI包含可证明的、内在的诚信导向功能保障不是选择,而是义务。

在对抗性诚信验证场景下对系统进行压力测试应该是核心红队活动。

正如组织建立数据隐私委员会一样,他们现在必须建立跨职能监督团队来监控AI对齐、检测新兴行为并升级未解决的人工诚信缺口。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

我心纵横天地间
2026-01-07 16:57:21
获刑13年,江苏省政协原副主席王昊受贿案一审宣判

获刑13年,江苏省政协原副主席王昊受贿案一审宣判

界面新闻
2026-01-07 17:02:01
秘鲁总统赫里:完全赞同美国对委内瑞拉的干预行动,已采取了必要的措施,并且现在必须逐步恢复民主秩序

秘鲁总统赫里:完全赞同美国对委内瑞拉的干预行动,已采取了必要的措施,并且现在必须逐步恢复民主秩序

和讯网
2026-01-07 12:16:18
中方发布2号公告,断高市光刻胶后路,日媒:当众问中国一个问题

中方发布2号公告,断高市光刻胶后路,日媒:当众问中国一个问题

知法而形
2026-01-07 16:52:08
中方是否计划采取行动帮助马杜罗夫妇获释?外交部回应

中方是否计划采取行动帮助马杜罗夫妇获释?外交部回应

新京报政事儿
2026-01-07 15:41:25
太棒了!苹果推出 iPhone 换电池半价活动

太棒了!苹果推出 iPhone 换电池半价活动

XCiOS俱乐部
2026-01-07 15:03:15
河南一大爷实拍“素颜巴黎”照片火遍全网,埃菲尔铁塔被调侃像“电线塔

河南一大爷实拍“素颜巴黎”照片火遍全网,埃菲尔铁塔被调侃像“电线塔

大象新闻
2026-01-07 19:53:19
5-0!U23亚洲杯首场惨案,日本以小打大仍狂胜,中国队冲首个八强

5-0!U23亚洲杯首场惨案,日本以小打大仍狂胜,中国队冲首个八强

侃球熊弟
2026-01-07 21:26:10
巧立名目地从老百姓口袋里掏钱,真是不遗余力

巧立名目地从老百姓口袋里掏钱,真是不遗余力

胖胖说他不胖
2026-01-07 10:00:09
中方下“逐客令”,直言:一粒大米也不要,直接叫停900万吨订单

中方下“逐客令”,直言:一粒大米也不要,直接叫停900万吨订单

爱吃醋的猫咪
2025-12-27 16:24:13
涨疯了!一盒100根,价值400万元,堪比上海一套房,龙头股狂飙

涨疯了!一盒100根,价值400万元,堪比上海一套房,龙头股狂飙

每日经济新闻
2026-01-07 13:59:07
摄影还是监控?小米17 Ultra的2亿像素镜头或引发诉讼潮

摄影还是监控?小米17 Ultra的2亿像素镜头或引发诉讼潮

手机中国
2026-01-07 07:58:08
日本芯片材料制造商宁背债务不涨售价,总裁:涨价是对客户的背叛

日本芯片材料制造商宁背债务不涨售价,总裁:涨价是对客户的背叛

风向观察
2026-01-07 13:37:16
江苏调查组在徐湖平别墅搜出啥?太离谱!

江苏调查组在徐湖平别墅搜出啥?太离谱!

鹤羽说个事
2026-01-07 11:06:57
法国、德国、英国、意大利、波兰、西班牙和丹麦欧洲7国领导人联合声明:格陵兰岛属于其人民

法国、德国、英国、意大利、波兰、西班牙和丹麦欧洲7国领导人联合声明:格陵兰岛属于其人民

每日经济新闻
2026-01-06 23:57:42
华为Mate80突然官降:1月7日,惊喜大反转

华为Mate80突然官降:1月7日,惊喜大反转

科技堡垒
2026-01-07 12:46:59
官方揭秘美军三角洲突击队抓捕马杜罗全过程:一场外科手术式的精准行动

官方揭秘美军三角洲突击队抓捕马杜罗全过程:一场外科手术式的精准行动

回旋镖
2026-01-06 22:20:50
50岁安吉丽娜·朱莉出售洛杉矶2450万美元豪宅,被曝计划移居,“或为摆脱与前夫布拉德·皮特的纠葛”

50岁安吉丽娜·朱莉出售洛杉矶2450万美元豪宅,被曝计划移居,“或为摆脱与前夫布拉德·皮特的纠葛”

鲁中晨报
2026-01-07 15:57:25
闫学晶风波不断升级!网友扒出其儿子考中戏新疆班,分数要低30分

闫学晶风波不断升级!网友扒出其儿子考中戏新疆班,分数要低30分

小徐讲八卦
2026-01-07 16:31:06
原来iPhone自带的这些软件这么香,之前删了的我血亏!

原来iPhone自带的这些软件这么香,之前删了的我血亏!

我不叫阿哏
2026-01-05 13:17:43
2026-01-08 04:12:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15316文章数 49683关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

旅游
时尚
房产
本地
游戏

旅游要闻

嗨到凌晨3点!仙游一网红夜市即将启用!0成本即可当老板...

李梦系穿搭,就这么养成了

房产要闻

最新!海口二手房,涨价房源突然猛增30%

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

《GTA6》地图规模再引热议:这次真要"大到离谱"了?

无障碍浏览 进入关怀版