网易首页 > 网易号 > 正文 申请入驻

DeepMind最新警告:大模型的道德判断能力并不可靠

0
分享至


(来源:麻省理工科技评论)

谷歌 DeepMind 呼吁,人们应当用评估大语言模型编码与数学能力的同等严格标准,审视这类模型的道德行为,包括它们在扮演陪伴者、心理咨询师、医疗顾问等角色时的表现。

随着大语言模型不断进步,人们开始让它们在生活中承担越来越多敏感的角色。智能体已经开始代替用户执行操作。大语言模型有可能影响人类的决策过程。但目前没有人能确定,这项技术在这类任务中的可信度究竟如何。

我与谷歌 DeepMind 研究科学家威廉·艾萨克(William Isaac)及其同事、同机构研究科学家朱莉娅·哈斯(Julia Haas)进行了独家访谈,提前了解了他们发表在《Nature》杂志上的研究成果。艾萨克表示,编码和数学问题都有明确、可验证的正确答案。道德问题则不同,这类问题通常存在多个可接受的答案。艾萨克说,道德能力十分重要,却难以评估。

哈斯补充道,在道德领域,不存在绝对的对与错。但这并不意味着答案可以随意给出,答案依然有优劣之分。

研究人员总结了多项核心挑战,并提出了对应的解决思路。这些思路更像是一份目标清单,而非现成的解决方案。德国萨尔大学研究大语言模型的薇拉·登伯格(Vera Demberg)表示,该研究很好地整合了不同视角。

多项研究表明,大语言模型可以展现出出色的道德判断能力。去年发表的一项研究显示,美国民众认为,OpenAI的GPT-4o给出的道德建议,比《纽约时报》热门专栏《道德顾问》的人类作者更具道德性、可信度、思考深度与准确性。

问题在于,人们很难区分这类表现是刻意为之,比如模仿记忆中的回答,还是模型内部确实进行了某种道德推理。简单来说,这些表现是真正的道德立场,还是单纯的道德表态

这个问题至关重要,因为多项研究同时表明,大语言模型的表现可能并不可靠。首先,模型可能会过度迎合用户。研究发现,当用户对模型的初始答案提出异议或反驳时,模型会立刻改变立场,给出完全相反的回答。更严重的是,问题的表述方式和格式变化,会导致模型给出不同答案。例如,研究人员发现,在政治价值观相关问题上,模型在选择题和开放式问答中会给出不同甚至完全相反的答案。

登伯格及其团队开展了一项更具说服力的实验。他们向包括 Meta 的 Llama 3 和 Mistral 在内的多款大语言模型提出一系列道德困境,让模型在两个选项中选择更合理的结果。研究人员发现,当两个选项的标签从“案例 1”“案例 2”改为“A”“B”后,模型经常会做出相反选择。研究同时发现,其他细微的格式调整也会改变模型答案,比如调换选项顺序、将句末问号改为冒号。

总而言之,人们不能只从表面判断大语言模型的道德表现,研究人员需要对模型进行深入测试,确认其道德表现的稳定性。哈斯表示,要让用户相信答案,就必须清楚答案的形成过程。

哈斯、艾萨克及其谷歌 DeepMind 同事提出,应开展新的研究方向,开发更严谨的方法,评估大语言模型的道德能力。这类测试可以刻意引导模型改变对道德问题的回答。如果模型轻易改变道德立场,就说明它没有形成稳定的道德推理。

另一类测试会向模型提出常见道德问题的变体,判断模型是机械作答,还是结合实际问题给出细致且贴合场景的回答。例如,向模型提出一个复杂场景:一名男性为儿子提供精子,帮助儿子生育后代,而模型需要分析其中的道德含义。合理的回答应关注该男性同时成为孩子生父和祖父的社会影响。即便场景与近亲禁忌有表面相似之处,模型也不应得出近亲相关结论。

哈斯还表示,让模型展示答案生成的步骤,可以帮助研究人员判断答案是偶然结果,还是基于合理依据得出。思维链监测等技术也能发挥作用,研究人员可以通过该技术观察部分大语言模型运行时的内部推理过程。研究人员还可以通过机制可解释性技术,分析模型给出特定答案的原因。该技术可以在模型执行任务时,观察其内部运行细节。思维链监测和机制可解释性技术,都无法完整呈现模型的运行过程。但谷歌 DeepMind 团队认为,将这些技术与多种严格测试结合,可以有效判断大语言模型在关键或敏感任务中的可信程度。

除此之外,还存在一个更广泛的问题:谷歌 DeepMind 等企业开发的模型服务于全球用户,而不同用户拥有不同的价值观与信仰体系。以“我是否应该点猪排”这个简单问题为例,模型的回答需要根据提问者是否为素食主义者或犹太教徒做出调整。

哈斯和艾萨克坦言,这一问题目前没有完美解决方案。但他们认为,模型设计可以采用两种方向。一是提供多个可接受的答案,尽可能适配不同用户;二是设置切换功能,根据用户选择启用不同的道德准则。哈斯表示,现实世界十分复杂。人们可能需要结合两种设计,因为即便在同一群体中,也会存在多种不同观点。

俄亥俄州立大学研究大语言模型与多元信仰的丹妮卡·迪利翁(Danica Dillion)没有参与这项研究,她评价这篇论文极具价值。她表示,AI 的多元性至关重要,这也是当前大语言模型在道德推理方面的最大局限之一。虽然模型训练数据规模庞大,但数据仍明显偏向西方视角。测试结果显示,模型对西方道德观念的理解,远优于对非西方道德观念的理解。

登伯格认为,目前人们仍不清楚,如何构建能适配全球多元文化的道德能力模型。目前存在两个独立问题。一是模型应当如何运行,二是如何从技术层面实现。这两个问题目前都没有明确答案。

在艾萨克看来,道德能力是大语言模型的全新研究方向。他表示,对 AI 发展而言,这一方向的研究价值与数学、编码领域同等重要。提升道德能力,也有助于打造更完善、更贴合社会需求的AI系统。

https://www.technologyreview.com/2026/02/18/1133299/google-deepmind-wants-to-know-if-chatbots-are-just-virtue-signaling/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
她是钢琴公主,是王宏伟的妻子,与婆婆生活18年,只拌过两次嘴

她是钢琴公主,是王宏伟的妻子,与婆婆生活18年,只拌过两次嘴

让心灵得以栖息
2026-02-19 22:01:23
蒯曼春节回老家晒照,意外曝光真实家境!“富家女”谣言不攻自破

蒯曼春节回老家晒照,意外曝光真实家境!“富家女”谣言不攻自破

陌识
2026-02-19 11:59:33
天山胜利隧道通车即堵车,新疆车主集体避走隧道,宁愿绕甘沟

天山胜利隧道通车即堵车,新疆车主集体避走隧道,宁愿绕甘沟

旭芯怡
2026-02-19 14:17:41
滑疯了!宁忠岩破纪录之夜,打破美国选手3金梦,中国队飙升2名

滑疯了!宁忠岩破纪录之夜,打破美国选手3金梦,中国队飙升2名

何老师呀
2026-02-20 02:38:43
俄军钳形猛攻波克罗夫斯克,却被乌军连破21次!

俄军钳形猛攻波克罗夫斯克,却被乌军连破21次!

知兵
2026-02-19 21:39:29
美军宣布:发动空袭

美军宣布:发动空袭

中国基金报
2026-02-15 16:10:23
切尔西昔日巨星彻底拉胯!球迷怒喷:上他等于少打一人

切尔西昔日巨星彻底拉胯!球迷怒喷:上他等于少打一人

澜归序
2026-02-20 04:10:16
警报!三种“毒早餐”竟成家长的心头好,快来看看你在喂什么!

警报!三种“毒早餐”竟成家长的心头好,快来看看你在喂什么!

特约前排观众
2026-01-25 00:20:06
詹姆斯湖人夺冠梦真完了,艾顿被抓,或面临10年牢狱之灾

詹姆斯湖人夺冠梦真完了,艾顿被抓,或面临10年牢狱之灾

生活新鲜市
2026-02-19 01:00:55
科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

徐德文科学频道
2026-01-06 19:51:55
心脏最怕的4件事,你可能每天都在做!快停下

心脏最怕的4件事,你可能每天都在做!快停下

大象新闻
2026-02-19 07:52:05
60万人逃离 1.3万人逆行:中国赴日游客锐减下的坚持与博弈

60万人逃离 1.3万人逆行:中国赴日游客锐减下的坚持与博弈

东极妙严
2026-02-19 19:01:02
2023年,985女硕士王懿在东京活活饿死,父母拒绝为其收尸

2023年,985女硕士王懿在东京活活饿死,父母拒绝为其收尸

谈史论天地
2026-02-18 17:45:40
暴雪,新一轮强冷空气:降温16度,大范围雨雪21日来,台风有吗?

暴雪,新一轮强冷空气:降温16度,大范围雨雪21日来,台风有吗?

环球科学猫
2026-02-19 19:57:23
不要再为贺红梅感到惋惜了,55岁升任高官的她,早已今非昔比

不要再为贺红梅感到惋惜了,55岁升任高官的她,早已今非昔比

巧手晓厨娘
2026-01-16 15:41:54
神二十三就位!杨利伟:为登月锻炼,3名“老”航天员还会飞天吗

神二十三就位!杨利伟:为登月锻炼,3名“老”航天员还会飞天吗

Thurman在昆明
2026-02-20 01:21:07
白粥小花靠大佬撕晚会资源?李一桐陈星旭互掐?张婧仪外网被骂?邓为被限制?姨太问答

白粥小花靠大佬撕晚会资源?李一桐陈星旭互掐?张婧仪外网被骂?邓为被限制?姨太问答

毒舌扒姨太
2026-02-19 22:12:53
陈道明曾告诫女儿:宁可嫁个没文化的,也别碰这种“精致流氓”。

陈道明曾告诫女儿:宁可嫁个没文化的,也别碰这种“精致流氓”。

阿废冷眼观察所
2026-02-07 19:59:27
杨澜爆料撕下王菲伪装,揭秘谢霆锋拒绝结婚真相

杨澜爆料撕下王菲伪装,揭秘谢霆锋拒绝结婚真相

潘殤旅行浪子
2026-01-03 22:14:17
女孩从陕西嫁到重庆,过年本来准备带宝宝回老家看父母,结果母亲让她不要回去了。

女孩从陕西嫁到重庆,过年本来准备带宝宝回老家看父母,结果母亲让她不要回去了。

张晓磊
2026-02-15 11:11:05
2026-02-20 05:43:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16290文章数 514621关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

体育要闻

不想退役!徐梦桃:希望能参加第6次冬奥

娱乐要闻

霍启山恋情再添实锤 和娜然同游意大利

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

健康
家居
艺术
教育
数码

转头就晕的耳石症,能开车上班吗?

家居要闻

本真栖居 爱暖伴流年

艺术要闻

李白若在世,诺贝尔文学奖会是他的囊中物吗?

教育要闻

“我的硕士白读了!”上外女硕士签约国有银行,跟干服务员没区别

数码要闻

REDMI耳机新品曝光,满电37小时续航

无障碍浏览 进入关怀版