DeepMind最新警告：大模型的道德判断能力并不可靠|哈斯|谷歌|推理|艾萨克|知名企业|deepmind

DeepMind最新警告：大模型的道德判断能力并不可靠

2026-02-19 19:25:51　来源: DeepTech深科技

河南举报

分享至

（来源：麻省理工科技评论）

谷歌 DeepMind 呼吁，人们应当用评估大语言模型编码与数学能力的同等严格标准，审视这类模型的道德行为，包括它们在扮演陪伴者、心理咨询师、医疗顾问等角色时的表现。

随着大语言模型不断进步，人们开始让它们在生活中承担越来越多敏感的角色。智能体已经开始代替用户执行操作。大语言模型有可能影响人类的决策过程。但目前没有人能确定，这项技术在这类任务中的可信度究竟如何。

我与谷歌 DeepMind 研究科学家威廉·艾萨克（William Isaac）及其同事、同机构研究科学家朱莉娅·哈斯（Julia Haas）进行了独家访谈，提前了解了他们发表在《Nature》杂志上的研究成果。艾萨克表示，编码和数学问题都有明确、可验证的正确答案。道德问题则不同，这类问题通常存在多个可接受的答案。艾萨克说，道德能力十分重要，却难以评估。

哈斯补充道，在道德领域，不存在绝对的对与错。但这并不意味着答案可以随意给出，答案依然有优劣之分。

研究人员总结了多项核心挑战，并提出了对应的解决思路。这些思路更像是一份目标清单，而非现成的解决方案。德国萨尔大学研究大语言模型的薇拉·登伯格（Vera Demberg）表示，该研究很好地整合了不同视角。

多项研究表明，大语言模型可以展现出出色的道德判断能力。去年发表的一项研究显示，美国民众认为，OpenAI的GPT-4o给出的道德建议，比《纽约时报》热门专栏《道德顾问》的人类作者更具道德性、可信度、思考深度与准确性。

问题在于，人们很难区分这类表现是刻意为之，比如模仿记忆中的回答，还是模型内部确实进行了某种道德推理。简单来说，这些表现是真正的道德立场，还是单纯的道德表态

这个问题至关重要，因为多项研究同时表明，大语言模型的表现可能并不可靠。首先，模型可能会过度迎合用户。研究发现，当用户对模型的初始答案提出异议或反驳时，模型会立刻改变立场，给出完全相反的回答。更严重的是，问题的表述方式和格式变化，会导致模型给出不同答案。例如，研究人员发现，在政治价值观相关问题上，模型在选择题和开放式问答中会给出不同甚至完全相反的答案。

登伯格及其团队开展了一项更具说服力的实验。他们向包括 Meta 的 Llama 3 和 Mistral 在内的多款大语言模型提出一系列道德困境，让模型在两个选项中选择更合理的结果。研究人员发现，当两个选项的标签从“案例 1”“案例 2”改为“A”“B”后，模型经常会做出相反选择。研究同时发现，其他细微的格式调整也会改变模型答案，比如调换选项顺序、将句末问号改为冒号。

总而言之，人们不能只从表面判断大语言模型的道德表现，研究人员需要对模型进行深入测试，确认其道德表现的稳定性。哈斯表示，要让用户相信答案，就必须清楚答案的形成过程。

哈斯、艾萨克及其谷歌 DeepMind 同事提出，应开展新的研究方向，开发更严谨的方法，评估大语言模型的道德能力。这类测试可以刻意引导模型改变对道德问题的回答。如果模型轻易改变道德立场，就说明它没有形成稳定的道德推理。

另一类测试会向模型提出常见道德问题的变体，判断模型是机械作答，还是结合实际问题给出细致且贴合场景的回答。例如，向模型提出一个复杂场景：一名男性为儿子提供精子，帮助儿子生育后代，而模型需要分析其中的道德含义。合理的回答应关注该男性同时成为孩子生父和祖父的社会影响。即便场景与近亲禁忌有表面相似之处，模型也不应得出近亲相关结论。

哈斯还表示，让模型展示答案生成的步骤，可以帮助研究人员判断答案是偶然结果，还是基于合理依据得出。思维链监测等技术也能发挥作用，研究人员可以通过该技术观察部分大语言模型运行时的内部推理过程。研究人员还可以通过机制可解释性技术，分析模型给出特定答案的原因。该技术可以在模型执行任务时，观察其内部运行细节。思维链监测和机制可解释性技术，都无法完整呈现模型的运行过程。但谷歌 DeepMind 团队认为，将这些技术与多种严格测试结合，可以有效判断大语言模型在关键或敏感任务中的可信程度。

除此之外，还存在一个更广泛的问题：谷歌 DeepMind 等企业开发的模型服务于全球用户，而不同用户拥有不同的价值观与信仰体系。以“我是否应该点猪排”这个简单问题为例，模型的回答需要根据提问者是否为素食主义者或犹太教徒做出调整。

哈斯和艾萨克坦言，这一问题目前没有完美解决方案。但他们认为，模型设计可以采用两种方向。一是提供多个可接受的答案，尽可能适配不同用户；二是设置切换功能，根据用户选择启用不同的道德准则。哈斯表示，现实世界十分复杂。人们可能需要结合两种设计，因为即便在同一群体中，也会存在多种不同观点。

俄亥俄州立大学研究大语言模型与多元信仰的丹妮卡·迪利翁（Danica Dillion）没有参与这项研究，她评价这篇论文极具价值。她表示，AI 的多元性至关重要，这也是当前大语言模型在道德推理方面的最大局限之一。虽然模型训练数据规模庞大，但数据仍明显偏向西方视角。测试结果显示，模型对西方道德观念的理解，远优于对非西方道德观念的理解。

登伯格认为，目前人们仍不清楚，如何构建能适配全球多元文化的道德能力模型。目前存在两个独立问题。一是模型应当如何运行，二是如何从技术层面实现。这两个问题目前都没有明确答案。

在艾萨克看来，道德能力是大语言模型的全新研究方向。他表示，对 AI 发展而言，这一方向的研究价值与数学、编码领域同等重要。提升道德能力，也有助于打造更完善、更贴合社会需求的AI系统。

https://www.technologyreview.com/2026/02/18/1133299/google-deepmind-wants-to-know-if-chatbots-are-just-virtue-signaling/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.