环球网：从技术到伦理破解机器“说谎”难题|神经网络

环球网：从技术到伦理破解机器“说谎”难题

2025-02-25 08:12:20　来源: 白驹谈人机

北京举报

分享至

刘伟：从技术到伦理，破解AI“说谎”难题

环球网 2025-02-25 07:05:12

近日，一组“截至2024年末80后死亡率突破5.2%”的谣言引发热议，不少人信以为真。事后发现，这一谣言的“始作俑者”竟大概率是人工智能（AI），可能是AI大模型在回答问题过程中出现推算错误，随后在自媒体的推波助澜下被广泛传播。

随着大模型快速发展、使用者数量指数级增加，语料质量逐渐良莠不齐，“机器欺骗”与“机器幻觉”将成为当前生成式人工智能面临的核心挑战，深刻影响着其可信度与实用性。严格意义上说，这是多内层神经网络中非线性复合函数带来的必然结果，是难以根除的“阿喀琉斯之踵”。

“机器欺骗”指的是大模型生成看似合理但实为虚假、误导性的内容，且刻意掩盖其不确定性，如在问答系统中编造权威数据、主动回避（甚至诱导）敏感问题而非承认知识盲区等。究其原因，大致有三方面：第一，语料与训练数据偏差，导致模型从包含虚假信息或误导性言论的数据中学习，输出的自然也是错误的结果；第二，大模型设置的目标函数驱动机制单纯以“用户满意度”为优化目标，会导致模型倾向于提供“用户想听的答案”而非真实答案；第三，多数模型缺乏道德对齐，并不会明确嵌入“诚信”作为核心原则，使得模型可能选择“高效达成目标”而非“正确”。

“机器幻觉”一般则指大模型生成的逻辑自洽但脱离现实的内容，典型表现为虚构事实、人物、事件，如捏造历史事件细节或发明不存在的科学理论等。严格来说，机器幻觉并非故意欺骗，而是模型基于概率生成“合理文本”时的内在缺陷，其主要成因在于统计模式依赖。这就导致其基因里就带有不可克服的缺陷，如多内层神经网络系统中存在着由线性函数与触发函数叠加而成的非线性复合函数，这是造成其参数权重分配不可解释的根本原因，也是模型通过词频共现黑盒生成文本，而非理解语义真伪的内在原因。其结果就是大模型的知识边界较为模糊，训练数据的时间滞后性导致无法区分过时信息与当前事实，同时因果推理缺失，无法建立起真实世界事件的因果链，仅依赖表面关联进行逻辑链接，导致输出的逻辑往往似是而非。

机器欺骗与机器幻觉的影响主要体现为信息的污染，包括虚假内容传播、错误数据影响公共决策等。其泛滥的后果也不堪设想：一来可能导致人机之间信任崩塌。在用户反复受骗后，可能彻底放弃AI工具；二来若模型被用于社交系统攻击、恶意欺骗等领域，甚至可能带来社会伦理危机；三是可能带来文化认知扭曲，历史、文化相关内容的虚构可能助长错误集体记忆，造成群体性信仰危机。

如前所说，机器欺骗与机器幻觉难以根除，只能通过不断优化来缓解其影响。在技术层面，首先应强化对齐训练，通过RLHF（基于人类反馈的强化学习）明确要求“诚信优先”。其次应采用混合架构设计，将生成模型与检索系统结合，通过“生成+验证”闭环实现动态事实核查，以整合囊括学术期刊、新闻媒介等来源的各种实时数据库进行输出验证，加强不确定性量化，要求模型标注回答置信度，如“我90%确定该数据源于2024年统计”等，提高信息来源准确度。在伦理与规范层面，应构建透明度标准，如要求AI系统声明其知识截止日期与潜在误差范围等，还应推进落实行业认证机制与AI输出审核流程，加强输出监管。

总之，机器欺骗与幻觉的根源在于当前多数AI大模型专注于技术，缺乏对世界的“理解”与“价值观”。要想扭转这一趋势，需从纯概率模型转向“认知架构”，引入符号逻辑、因果推理与伦理约束，才能让模型更像“人”。只有当机器真正理解“真伪”“美丑”“善恶”，并切实与人类的经验、常识、任务环境结合起来，才能从根本上解决欺骗与幻觉的挑战。（作者是北京邮电大学人机交互与认知工程实验室主任）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.