网易首页 > 网易号 > 正文 申请入驻

DeepMind最新警告:大模型的道德判断能力并不可靠

0
分享至

来源:市场资讯

(来源:DeepTech深科技)


(来源:麻省理工科技评论)

谷歌 DeepMind 呼吁,人们应当用评估大语言模型编码与数学能力的同等严格标准,审视这类模型的道德行为,包括它们在扮演陪伴者、心理咨询师、医疗顾问等角色时的表现。

随着大语言模型不断进步,人们开始让它们在生活中承担越来越多敏感的角色。智能体已经开始代替用户执行操作。大语言模型有可能影响人类的决策过程。但目前没有人能确定,这项技术在这类任务中的可信度究竟如何。

我与谷歌 DeepMind 研究科学家威廉·艾萨克(William Isaac)及其同事、同机构研究科学家朱莉娅·哈斯(Julia Haas)进行了独家访谈,提前了解了他们发表在《Nature》杂志上的研究成果。艾萨克表示,编码和数学问题都有明确、可验证的正确答案。道德问题则不同,这类问题通常存在多个可接受的答案。艾萨克说,道德能力十分重要,却难以评估。

哈斯补充道,在道德领域,不存在绝对的对与错。但这并不意味着答案可以随意给出,答案依然有优劣之分。

研究人员总结了多项核心挑战,并提出了对应的解决思路。这些思路更像是一份目标清单,而非现成的解决方案。德国萨尔大学研究大语言模型的薇拉·登伯格(Vera Demberg)表示,该研究很好地整合了不同视角。

多项研究表明,大语言模型可以展现出出色的道德判断能力。去年发表的一项研究显示,美国民众认为,OpenAI的GPT-4o给出的道德建议,比《纽约时报》热门专栏《道德顾问》的人类作者更具道德性、可信度、思考深度与准确性。

问题在于,人们很难区分这类表现是刻意为之,比如模仿记忆中的回答,还是模型内部确实进行了某种道德推理。简单来说,这些表现是真正的道德立场,还是单纯的道德表态

这个问题至关重要,因为多项研究同时表明,大语言模型的表现可能并不可靠。首先,模型可能会过度迎合用户。研究发现,当用户对模型的初始答案提出异议或反驳时,模型会立刻改变立场,给出完全相反的回答。更严重的是,问题的表述方式和格式变化,会导致模型给出不同答案。例如,研究人员发现,在政治价值观相关问题上,模型在选择题和开放式问答中会给出不同甚至完全相反的答案。

登伯格及其团队开展了一项更具说服力的实验。他们向包括 Meta 的 Llama 3 和 Mistral 在内的多款大语言模型提出一系列道德困境,让模型在两个选项中选择更合理的结果。研究人员发现,当两个选项的标签从“案例 1”“案例 2”改为“A”“B”后,模型经常会做出相反选择。研究同时发现,其他细微的格式调整也会改变模型答案,比如调换选项顺序、将句末问号改为冒号。

总而言之,人们不能只从表面判断大语言模型的道德表现,研究人员需要对模型进行深入测试,确认其道德表现的稳定性。哈斯表示,要让用户相信答案,就必须清楚答案的形成过程。

哈斯、艾萨克及其谷歌 DeepMind 同事提出,应开展新的研究方向,开发更严谨的方法,评估大语言模型的道德能力。这类测试可以刻意引导模型改变对道德问题的回答。如果模型轻易改变道德立场,就说明它没有形成稳定的道德推理。

另一类测试会向模型提出常见道德问题的变体,判断模型是机械作答,还是结合实际问题给出细致且贴合场景的回答。例如,向模型提出一个复杂场景:一名男性为儿子提供精子,帮助儿子生育后代,而模型需要分析其中的道德含义。合理的回答应关注该男性同时成为孩子生父和祖父的社会影响。即便场景与近亲禁忌有表面相似之处,模型也不应得出近亲相关结论。

哈斯还表示,让模型展示答案生成的步骤,可以帮助研究人员判断答案是偶然结果,还是基于合理依据得出。思维链监测等技术也能发挥作用,研究人员可以通过该技术观察部分大语言模型运行时的内部推理过程。研究人员还可以通过机制可解释性技术,分析模型给出特定答案的原因。该技术可以在模型执行任务时,观察其内部运行细节。思维链监测和机制可解释性技术,都无法完整呈现模型的运行过程。但谷歌 DeepMind 团队认为,将这些技术与多种严格测试结合,可以有效判断大语言模型在关键或敏感任务中的可信程度。

除此之外,还存在一个更广泛的问题:谷歌 DeepMind 等企业开发的模型服务于全球用户,而不同用户拥有不同的价值观与信仰体系。以“我是否应该点猪排”这个简单问题为例,模型的回答需要根据提问者是否为素食主义者或犹太教徒做出调整。

哈斯和艾萨克坦言,这一问题目前没有完美解决方案。但他们认为,模型设计可以采用两种方向。一是提供多个可接受的答案,尽可能适配不同用户;二是设置切换功能,根据用户选择启用不同的道德准则。哈斯表示,现实世界十分复杂。人们可能需要结合两种设计,因为即便在同一群体中,也会存在多种不同观点。

俄亥俄州立大学研究大语言模型与多元信仰的丹妮卡·迪利翁(Danica Dillion)没有参与这项研究,她评价这篇论文极具价值。她表示,AI 的多元性至关重要,这也是当前大语言模型在道德推理方面的最大局限之一。虽然模型训练数据规模庞大,但数据仍明显偏向西方视角。测试结果显示,模型对西方道德观念的理解,远优于对非西方道德观念的理解。

登伯格认为,目前人们仍不清楚,如何构建能适配全球多元文化的道德能力模型。目前存在两个独立问题。一是模型应当如何运行,二是如何从技术层面实现。这两个问题目前都没有明确答案。

在艾萨克看来,道德能力是大语言模型的全新研究方向。他表示,对 AI 发展而言,这一方向的研究价值与数学、编码领域同等重要。提升道德能力,也有助于打造更完善、更贴合社会需求的AI系统。

https://www.technologyreview.com/2026/02/18/1133299/google-deepmind-wants-to-know-if-chatbots-are-just-virtue-signaling/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谁懂啊!白微喇裤才是春天的“背影杀神器”,牛仔外套只是陪衬

谁懂啊!白微喇裤才是春天的“背影杀神器”,牛仔外套只是陪衬

只要高兴就好
2026-05-05 13:20:09
51假期还没过完,多省景区接连塌房!央视出手,当地文旅跟着遭殃

51假期还没过完,多省景区接连塌房!央视出手,当地文旅跟着遭殃

米果说识
2026-05-05 19:41:35
李小冉在个人的社交平台上分享了一组照片,并为此配文:

李小冉在个人的社交平台上分享了一组照片,并为此配文:

贾妈的幸福生活
2026-05-05 21:12:48
即日起,未经同意不得发送这类短信!

即日起,未经同意不得发送这类短信!

丰川大地
2026-05-05 22:38:21
广西医科大学原校长被查,曾为院士候选人

广西医科大学原校长被查,曾为院士候选人

医学界
2026-05-05 19:11:45
许家印骄奢淫逸细节大曝光

许家印骄奢淫逸细节大曝光

深度报
2026-05-05 22:12:36
奥尼尔开喷!37岁场均20+5+6!这年纪这表现还不够?

奥尼尔开喷!37岁场均20+5+6!这年纪这表现还不够?

篮球大图
2026-05-05 11:26:40
高市早苗没想到,日本自民党高层访华,只吃到了中国的闭门羹?

高市早苗没想到,日本自民党高层访华,只吃到了中国的闭门羹?

星星跌入梦里中
2026-05-05 20:41:14
浪姐陶昕然,全体家长的噩梦

浪姐陶昕然,全体家长的噩梦

橙子说说咱家娃
2026-05-04 08:10:18
任何一个男人到了六十岁后,只要还对异性怀有欣赏与追求,往往因为这两件事

任何一个男人到了六十岁后,只要还对异性怀有欣赏与追求,往往因为这两件事

心理观察局
2026-05-04 08:51:11
历史的教训:当年让了两个岛给朝鲜,使鸭绿江的出海口快没有了

历史的教训:当年让了两个岛给朝鲜,使鸭绿江的出海口快没有了

兴趣知识
2026-05-05 18:12:07
不打了?美航母撤离,特朗普官宣战争结束,关键时刻中方定调中东

不打了?美航母撤离,特朗普官宣战争结束,关键时刻中方定调中东

粉红小碎花
2026-05-05 18:26:19
巴基斯坦下了一步臭棋,不增购功臣歼-10,反而重金升级F-16

巴基斯坦下了一步臭棋,不增购功臣歼-10,反而重金升级F-16

井普椿的独白
2026-05-05 16:32:08
专家呼吁:马上停用这5种调味酱,它是肠癌催化剂!再下饭也别沾

专家呼吁:马上停用这5种调味酱,它是肠癌催化剂!再下饭也别沾

读懂世界历史
2026-05-03 09:44:10
舒梅切尔:希望英格兰别带梅努,肖踢完欧洲杯躺了半年

舒梅切尔:希望英格兰别带梅努,肖踢完欧洲杯躺了半年

懂球帝
2026-05-05 18:58:09
【通报】中纪委密集通报,院长腐败曝光

【通报】中纪委密集通报,院长腐败曝光

魏子柠说
2026-05-05 00:12:52
心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

德鲁克博雅管理
2026-04-28 17:04:30
YOYO直播发言太冷淡,才第4天就突然变脸,话锋一转公开站队石明天权了

YOYO直播发言太冷淡,才第4天就突然变脸,话锋一转公开站队石明天权了

手工制作阿歼
2026-05-05 06:32:55
为什么内行人说智能手表只有两种:Apple Watch,和其他

为什么内行人说智能手表只有两种:Apple Watch,和其他

小蜜情感说
2026-05-05 20:16:36
杨子离婚 3个月就和新欢产子,黄圣依17年青春喂了狗,体面尽失

杨子离婚 3个月就和新欢产子,黄圣依17年青春喂了狗,体面尽失

橙星文娱
2026-04-29 10:30:58
2026-05-05 23:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3103440文章数 7166关注度
往期回顾 全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

美军称“布什”号航母正穿越阿拉伯海 搭载60多架战机

头条要闻

美军称“布什”号航母正穿越阿拉伯海 搭载60多架战机

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

内娱真情谊!杨紫为谢娜演唱会送花篮

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

数码
健康
亲子
本地
军事航空

数码要闻

亚马逊押注“诺奖材料”除湿技术 可大幅削减建筑能耗

干细胞治烧烫伤面临这些“瓶颈”

亲子要闻

爸爸给娃洗澡时,无论怎么摆弄他都不哭,网友:拿开水烫我也哭 别说他了

本地新闻

用青花瓷的方式,打开西溪湿地

军事要闻

特朗普威胁伊朗不要向美国船开火

无障碍浏览 进入关怀版