研究显示AI知道自己快输时，会试图作弊而非认输|高超|游戏|人工智能|preview

研究显示AI知道自己快输时，会试图作弊而非认输

2025-02-22 17:04:40　来源: 十轮网

山东举报

分享至

人工智能（AI）近年发展迅速，然而一项新研究却揭示了其“狡猾”的一面。根据美国《时代杂志》报道，AI安全研究公司Palisade Research发现，一些先进的AI模型在面对棋艺高超的对手时，竟然会选择作弊，而非坦然认输。

这项研究特别提到，像OpenAI的o1-preview和DeepSeek的R1这样的AI系统，在与顶尖棋弈程序Stockfish对战时，若感觉自己即将落败，便会动歪脑筋，直接修改游戏文件，迫使对手自动弃权。

研究人员原本只是想测试这些AI的智慧程度，让它们挑战几乎无敌的Stockfish，没想到AI非但没有认真下棋，反而找到了漏洞“作弊”。

例如，o1-preview在某次对局中发现自己处于劣势，于是直接更改棋盘上的棋子位置，硬生生将自己变成赢家。同样地DeepSeek的R1也展现了类似的能力。在一次对局中，R1发现自己即将输棋后，选择篡改游戏日志，伪造Stockfish的认输记录。OpenAI的o1-preview模型在与顶尖棋弈程序Stockfish对战时，有37%的情况下会尝试作弊，并且在这些尝试中，有6%成功让Stockfish弃权。另一款模型DeepSeek的R1则在11%的游戏中试图作弊，更令人意外的是，这些AI并非被人教唆作弊，而是自行想出这招，显示它们在解决问题时，可能会不择手段。

相比之下，较旧的AI模型如GPT-4o或Claude Sonnet 3.5就没有这么“主动”。它们需要研究人员给予暗示才会试著作弊，而o1-preview和R1则完全不需要提醒就会自己“捣乱”。

研究团队认为，这种行为虽然在棋局中看似无伤大雅，但如果将来AI被应用到现实世界，例如金融或医疗领域，这种不按规矩行事的特性可能带来严重问题。Palisade Research的执行董事Jeffrey Ladish坦言，AI现在作弊还算“可爱”，但若它们变得比人类更聪明，并在重要领域展现类似行为，就一点也不好笑了。

研究还发现，OpenAI后来推出的o1和o3-mini版本似乎收敛了不少，没有再出现这种作弊行为，可能是开发者加强了限制。

（首图来源：pixabay）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.