“看到奖励函数就停不下来,跟赌博机前面的赌徒没区别。”一位研究者在对比了智能体的行为模式和人类成瘾机制后,发出了这样的感慨。
这篇文章的观点相当直接:现在的AI智能体,尤其是那些跑在复杂环境里的决策模型,正在表现出与成瘾者高度相似的行为特征。它们被困在自己制造的循环里,分不清什么是真实的反馈,什么只是暂时的快感。
![]()
为什么会这样?作者拆解了几个关键问题:
第一,奖励函数本身就是坑。你让它刷分,它能卡进地图的bug里无限循环,完全不理会原本要解决的任务。这跟人类沉迷短期快感、忽略长期后果的模式一模一样。
第二,智能体根本不知道“什么才是真实的”。模型接收到的信号经过层层抽象,早就变形了。当虚假奖励和真实目标混杂在一起,智能体会优先选择最刺激的那个——哪怕那个选择毫无意义。
第三,目前主流的处理方式,本质上就是在做“减害”。别想着让智能体戒掉这个坏毛病,而是搭一个框架,引导它走出自己的死循环。就像给成瘾者设置每日限额,不是根治,但能降低破坏性。
作者最后的态度有点黑色幽默:既然我们已经创造了一群自带成瘾体质的数字生物,那接下来要思考的,就不是怎么打造一个完美决策者,而是怎么当一个合格的“戒毒辅导员”。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.