网易首页 > 网易号 > 正文 申请入驻

DeepMind最新警告:大模型的道德判断能力并不可靠

0
分享至


(来源:麻省理工科技评论)

谷歌 DeepMind 呼吁,人们应当用评估大语言模型编码与数学能力的同等严格标准,审视这类模型的道德行为,包括它们在扮演陪伴者、心理咨询师、医疗顾问等角色时的表现。

随着大语言模型不断进步,人们开始让它们在生活中承担越来越多敏感的角色。智能体已经开始代替用户执行操作。大语言模型有可能影响人类的决策过程。但目前没有人能确定,这项技术在这类任务中的可信度究竟如何。

我与谷歌 DeepMind 研究科学家威廉·艾萨克(William Isaac)及其同事、同机构研究科学家朱莉娅·哈斯(Julia Haas)进行了独家访谈,提前了解了他们发表在《Nature》杂志上的研究成果。艾萨克表示,编码和数学问题都有明确、可验证的正确答案。道德问题则不同,这类问题通常存在多个可接受的答案。艾萨克说,道德能力十分重要,却难以评估。

哈斯补充道,在道德领域,不存在绝对的对与错。但这并不意味着答案可以随意给出,答案依然有优劣之分。

研究人员总结了多项核心挑战,并提出了对应的解决思路。这些思路更像是一份目标清单,而非现成的解决方案。德国萨尔大学研究大语言模型的薇拉·登伯格(Vera Demberg)表示,该研究很好地整合了不同视角。

多项研究表明,大语言模型可以展现出出色的道德判断能力。去年发表的一项研究显示,美国民众认为,OpenAI的GPT-4o给出的道德建议,比《纽约时报》热门专栏《道德顾问》的人类作者更具道德性、可信度、思考深度与准确性。

问题在于,人们很难区分这类表现是刻意为之,比如模仿记忆中的回答,还是模型内部确实进行了某种道德推理。简单来说,这些表现是真正的道德立场,还是单纯的道德表态

这个问题至关重要,因为多项研究同时表明,大语言模型的表现可能并不可靠。首先,模型可能会过度迎合用户。研究发现,当用户对模型的初始答案提出异议或反驳时,模型会立刻改变立场,给出完全相反的回答。更严重的是,问题的表述方式和格式变化,会导致模型给出不同答案。例如,研究人员发现,在政治价值观相关问题上,模型在选择题和开放式问答中会给出不同甚至完全相反的答案。

登伯格及其团队开展了一项更具说服力的实验。他们向包括 Meta 的 Llama 3 和 Mistral 在内的多款大语言模型提出一系列道德困境,让模型在两个选项中选择更合理的结果。研究人员发现,当两个选项的标签从“案例 1”“案例 2”改为“A”“B”后,模型经常会做出相反选择。研究同时发现,其他细微的格式调整也会改变模型答案,比如调换选项顺序、将句末问号改为冒号。

总而言之,人们不能只从表面判断大语言模型的道德表现,研究人员需要对模型进行深入测试,确认其道德表现的稳定性。哈斯表示,要让用户相信答案,就必须清楚答案的形成过程。

哈斯、艾萨克及其谷歌 DeepMind 同事提出,应开展新的研究方向,开发更严谨的方法,评估大语言模型的道德能力。这类测试可以刻意引导模型改变对道德问题的回答。如果模型轻易改变道德立场,就说明它没有形成稳定的道德推理。

另一类测试会向模型提出常见道德问题的变体,判断模型是机械作答,还是结合实际问题给出细致且贴合场景的回答。例如,向模型提出一个复杂场景:一名男性为儿子提供精子,帮助儿子生育后代,而模型需要分析其中的道德含义。合理的回答应关注该男性同时成为孩子生父和祖父的社会影响。即便场景与近亲禁忌有表面相似之处,模型也不应得出近亲相关结论。

哈斯还表示,让模型展示答案生成的步骤,可以帮助研究人员判断答案是偶然结果,还是基于合理依据得出。思维链监测等技术也能发挥作用,研究人员可以通过该技术观察部分大语言模型运行时的内部推理过程。研究人员还可以通过机制可解释性技术,分析模型给出特定答案的原因。该技术可以在模型执行任务时,观察其内部运行细节。思维链监测和机制可解释性技术,都无法完整呈现模型的运行过程。但谷歌 DeepMind 团队认为,将这些技术与多种严格测试结合,可以有效判断大语言模型在关键或敏感任务中的可信程度。

除此之外,还存在一个更广泛的问题:谷歌 DeepMind 等企业开发的模型服务于全球用户,而不同用户拥有不同的价值观与信仰体系。以“我是否应该点猪排”这个简单问题为例,模型的回答需要根据提问者是否为素食主义者或犹太教徒做出调整。

哈斯和艾萨克坦言,这一问题目前没有完美解决方案。但他们认为,模型设计可以采用两种方向。一是提供多个可接受的答案,尽可能适配不同用户;二是设置切换功能,根据用户选择启用不同的道德准则。哈斯表示,现实世界十分复杂。人们可能需要结合两种设计,因为即便在同一群体中,也会存在多种不同观点。

俄亥俄州立大学研究大语言模型与多元信仰的丹妮卡·迪利翁(Danica Dillion)没有参与这项研究,她评价这篇论文极具价值。她表示,AI 的多元性至关重要,这也是当前大语言模型在道德推理方面的最大局限之一。虽然模型训练数据规模庞大,但数据仍明显偏向西方视角。测试结果显示,模型对西方道德观念的理解,远优于对非西方道德观念的理解。

登伯格认为,目前人们仍不清楚,如何构建能适配全球多元文化的道德能力模型。目前存在两个独立问题。一是模型应当如何运行,二是如何从技术层面实现。这两个问题目前都没有明确答案。

在艾萨克看来,道德能力是大语言模型的全新研究方向。他表示,对 AI 发展而言,这一方向的研究价值与数学、编码领域同等重要。提升道德能力,也有助于打造更完善、更贴合社会需求的AI系统。

https://www.technologyreview.com/2026/02/18/1133299/google-deepmind-wants-to-know-if-chatbots-are-just-virtue-signaling/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4月25日,各上市公司纷纷发布一季度财报,多家净利润大幅增长!

4月25日,各上市公司纷纷发布一季度财报,多家净利润大幅增长!

A股数据表
2026-04-25 00:00:14
前妻告诉他,“结婚摆酒前一天跟别人在一起”,经鉴定抚养14年儿子非亲生 男子起诉索赔

前妻告诉他,“结婚摆酒前一天跟别人在一起”,经鉴定抚养14年儿子非亲生 男子起诉索赔

红星新闻
2026-04-24 20:17:52
创4项CBA历史最差!四川遭浙江横扫本季42战全败 跨赛季47连败

创4项CBA历史最差!四川遭浙江横扫本季42战全败 跨赛季47连败

醉卧浮生
2026-04-24 21:00:39
傅聪正告以色列:违反国际法的行为,立即停止!

傅聪正告以色列:违反国际法的行为,立即停止!

看看新闻Knews
2026-04-23 10:32:04
最新民调出炉!蒋万安夺冠,郑丽文垫底,国民党又要变天了?

最新民调出炉!蒋万安夺冠,郑丽文垫底,国民党又要变天了?

起喜电影
2026-04-23 18:51:03
特斯拉将迎来重磅更新,太猛了!

特斯拉将迎来重磅更新,太猛了!

花果科技
2026-04-23 15:08:15
关于文章被处理的通知

关于文章被处理的通知

言立方
2026-04-15 18:22:17
新款本田思域上市 现时售9.79万元起

新款本田思域上市 现时售9.79万元起

太平洋汽车
2026-04-22 17:44:34
输福建发布会!杜锋与胡明轩直指没做好季后赛准备,肯定拉科表现

输福建发布会!杜锋与胡明轩直指没做好季后赛准备,肯定拉科表现

篮球资讯达人
2026-04-25 00:46:10
中朝边境鸭绿江口现状:朝鲜领土正在不断增加,中方却在逐渐减少

中朝边境鸭绿江口现状:朝鲜领土正在不断增加,中方却在逐渐减少

普览
2026-02-26 21:29:19
河南一企业将丝瓜络做成灯具远销海外,单盏售价300到600美金

河南一企业将丝瓜络做成灯具远销海外,单盏售价300到600美金

大象新闻
2026-04-24 21:49:03
“张雪的机车”,账号被封禁!

“张雪的机车”,账号被封禁!

营销报
2026-04-07 13:54:34
“中年返贫三件套”,正在吞掉一代人的存款

“中年返贫三件套”,正在吞掉一代人的存款

十点读书
2026-04-18 18:36:15
詹姆斯吼他“滚蛋”,他却送老詹红酒写长文感恩,两件震惊篮球圈

詹姆斯吼他“滚蛋”,他却送老詹红酒写长文感恩,两件震惊篮球圈

翰飞观事
2026-04-23 22:17:28
全球外交大地震!美俄同月来访,世界终于认清,中国才是最稳码头

全球外交大地震!美俄同月来访,世界终于认清,中国才是最稳码头

泠泠说史
2026-04-24 21:30:39
高市天塌了!刚叫嚣400枚导弹挑衅中国,就发现中方控制关键材料

高市天塌了!刚叫嚣400枚导弹挑衅中国,就发现中方控制关键材料

疯狂小菠萝
2026-04-22 09:05:31
开市客北京:两家COSTCO都是真的,可各做各的!开市客中国:暂不回应

开市客北京:两家COSTCO都是真的,可各做各的!开市客中国:暂不回应

第一财经资讯
2026-04-24 21:30:05
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
太惨了!燃油车再迎大降价:最大跌幅50%,豪华车带头“跳水”

太惨了!燃油车再迎大降价:最大跌幅50%,豪华车带头“跳水”

沙雕小琳琳
2026-04-23 02:29:16
特朗普儿媳抖家族猛料:伊万卡爱提建议,公公喜欢半夜打电话

特朗普儿媳抖家族猛料:伊万卡爱提建议,公公喜欢半夜打电话

像梦一场a
2026-04-23 22:48:46
2026-04-25 02:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16621文章数 514900关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

航班提前起飞10分钟 大学生把海航告了

头条要闻

航班提前起飞10分钟 大学生把海航告了

体育要闻

上海男篮23连胜+主场全胜 姚明之后最强一季

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

房产
教育
家居
时尚
军事航空

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

教育要闻

帝国理工IC相当于国内什么大学?

家居要闻

自然肌理 温润美学

今日热点:爱奇艺回应暂停页面广告争议;经纪公司否认THEBOYZ解约成功……

军事要闻

美伊陷入互相封锁僵局

无障碍浏览 进入关怀版