网易首页 > 网易号 > 正文 申请入驻

DeepMind最新警告:大模型的道德判断能力并不可靠

0
分享至

来源:市场资讯

(来源:DeepTech深科技)


(来源:麻省理工科技评论)

谷歌 DeepMind 呼吁,人们应当用评估大语言模型编码与数学能力的同等严格标准,审视这类模型的道德行为,包括它们在扮演陪伴者、心理咨询师、医疗顾问等角色时的表现。

随着大语言模型不断进步,人们开始让它们在生活中承担越来越多敏感的角色。智能体已经开始代替用户执行操作。大语言模型有可能影响人类的决策过程。但目前没有人能确定,这项技术在这类任务中的可信度究竟如何。

我与谷歌 DeepMind 研究科学家威廉·艾萨克(William Isaac)及其同事、同机构研究科学家朱莉娅·哈斯(Julia Haas)进行了独家访谈,提前了解了他们发表在《Nature》杂志上的研究成果。艾萨克表示,编码和数学问题都有明确、可验证的正确答案。道德问题则不同,这类问题通常存在多个可接受的答案。艾萨克说,道德能力十分重要,却难以评估。

哈斯补充道,在道德领域,不存在绝对的对与错。但这并不意味着答案可以随意给出,答案依然有优劣之分。

研究人员总结了多项核心挑战,并提出了对应的解决思路。这些思路更像是一份目标清单,而非现成的解决方案。德国萨尔大学研究大语言模型的薇拉·登伯格(Vera Demberg)表示,该研究很好地整合了不同视角。

多项研究表明,大语言模型可以展现出出色的道德判断能力。去年发表的一项研究显示,美国民众认为,OpenAI的GPT-4o给出的道德建议,比《纽约时报》热门专栏《道德顾问》的人类作者更具道德性、可信度、思考深度与准确性。

问题在于,人们很难区分这类表现是刻意为之,比如模仿记忆中的回答,还是模型内部确实进行了某种道德推理。简单来说,这些表现是真正的道德立场,还是单纯的道德表态

这个问题至关重要,因为多项研究同时表明,大语言模型的表现可能并不可靠。首先,模型可能会过度迎合用户。研究发现,当用户对模型的初始答案提出异议或反驳时,模型会立刻改变立场,给出完全相反的回答。更严重的是,问题的表述方式和格式变化,会导致模型给出不同答案。例如,研究人员发现,在政治价值观相关问题上,模型在选择题和开放式问答中会给出不同甚至完全相反的答案。

登伯格及其团队开展了一项更具说服力的实验。他们向包括 Meta 的 Llama 3 和 Mistral 在内的多款大语言模型提出一系列道德困境,让模型在两个选项中选择更合理的结果。研究人员发现,当两个选项的标签从“案例 1”“案例 2”改为“A”“B”后,模型经常会做出相反选择。研究同时发现,其他细微的格式调整也会改变模型答案,比如调换选项顺序、将句末问号改为冒号。

总而言之,人们不能只从表面判断大语言模型的道德表现,研究人员需要对模型进行深入测试,确认其道德表现的稳定性。哈斯表示,要让用户相信答案,就必须清楚答案的形成过程。

哈斯、艾萨克及其谷歌 DeepMind 同事提出,应开展新的研究方向,开发更严谨的方法,评估大语言模型的道德能力。这类测试可以刻意引导模型改变对道德问题的回答。如果模型轻易改变道德立场,就说明它没有形成稳定的道德推理。

另一类测试会向模型提出常见道德问题的变体,判断模型是机械作答,还是结合实际问题给出细致且贴合场景的回答。例如,向模型提出一个复杂场景:一名男性为儿子提供精子,帮助儿子生育后代,而模型需要分析其中的道德含义。合理的回答应关注该男性同时成为孩子生父和祖父的社会影响。即便场景与近亲禁忌有表面相似之处,模型也不应得出近亲相关结论。

哈斯还表示,让模型展示答案生成的步骤,可以帮助研究人员判断答案是偶然结果,还是基于合理依据得出。思维链监测等技术也能发挥作用,研究人员可以通过该技术观察部分大语言模型运行时的内部推理过程。研究人员还可以通过机制可解释性技术,分析模型给出特定答案的原因。该技术可以在模型执行任务时,观察其内部运行细节。思维链监测和机制可解释性技术,都无法完整呈现模型的运行过程。但谷歌 DeepMind 团队认为,将这些技术与多种严格测试结合,可以有效判断大语言模型在关键或敏感任务中的可信程度。

除此之外,还存在一个更广泛的问题:谷歌 DeepMind 等企业开发的模型服务于全球用户,而不同用户拥有不同的价值观与信仰体系。以“我是否应该点猪排”这个简单问题为例,模型的回答需要根据提问者是否为素食主义者或犹太教徒做出调整。

哈斯和艾萨克坦言,这一问题目前没有完美解决方案。但他们认为,模型设计可以采用两种方向。一是提供多个可接受的答案,尽可能适配不同用户;二是设置切换功能,根据用户选择启用不同的道德准则。哈斯表示,现实世界十分复杂。人们可能需要结合两种设计,因为即便在同一群体中,也会存在多种不同观点。

俄亥俄州立大学研究大语言模型与多元信仰的丹妮卡·迪利翁(Danica Dillion)没有参与这项研究,她评价这篇论文极具价值。她表示,AI 的多元性至关重要,这也是当前大语言模型在道德推理方面的最大局限之一。虽然模型训练数据规模庞大,但数据仍明显偏向西方视角。测试结果显示,模型对西方道德观念的理解,远优于对非西方道德观念的理解。

登伯格认为,目前人们仍不清楚,如何构建能适配全球多元文化的道德能力模型。目前存在两个独立问题。一是模型应当如何运行,二是如何从技术层面实现。这两个问题目前都没有明确答案。

在艾萨克看来,道德能力是大语言模型的全新研究方向。他表示,对 AI 发展而言,这一方向的研究价值与数学、编码领域同等重要。提升道德能力,也有助于打造更完善、更贴合社会需求的AI系统。

https://www.technologyreview.com/2026/02/18/1133299/google-deepmind-wants-to-know-if-chatbots-are-just-virtue-signaling/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

查尔菲的笔记
2026-01-04 13:13:57
各行各业都有秘密,没有例外,网友:黑色的内衣裤不要买!

各行各业都有秘密,没有例外,网友:黑色的内衣裤不要买!

另子维爱读史
2026-02-07 18:55:06
卢浮宫十年惊天骗局曝光!中国导游团伙内外勾结,损失超千万欧元

卢浮宫十年惊天骗局曝光!中国导游团伙内外勾结,损失超千万欧元

老马拉车莫少装
2026-02-19 05:14:29
24小时内高市病情恶化,日本面临三大坏消息,特朗普或划清界限

24小时内高市病情恶化,日本面临三大坏消息,特朗普或划清界限

简简单单的说
2026-02-20 00:38:42
人有没有肝病,看喝酒就知?医生:有肝病的,喝酒多会有 4 异常

人有没有肝病,看喝酒就知?医生:有肝病的,喝酒多会有 4 异常

蜉蝣说
2026-02-14 11:32:17
年轻时是游泳健将,这大体格看着太舒服了,气血足大气漂亮!

年轻时是游泳健将,这大体格看着太舒服了,气血足大气漂亮!

健身狂人
2026-02-19 23:55:51
立陶宛新首相宣布:考虑将“台湾办事处”改名为“台北办事处”

立陶宛新首相宣布:考虑将“台湾办事处”改名为“台北办事处”

我心纵横天地间
2026-02-19 18:57:21
国务院安委办、应急部:严格落实烟花爆竹“五个严禁、三个务必”八项硬措施

国务院安委办、应急部:严格落实烟花爆竹“五个严禁、三个务必”八项硬措施

澎湃新闻
2026-02-19 14:57:04
前中兴高管直言:要是美国不搞强硬制裁,中国根本不打算造光刻机

前中兴高管直言:要是美国不搞强硬制裁,中国根本不打算造光刻机

林子说事
2026-02-20 00:00:03
下一个万亿风口!硬科技三大赛道,看懂的人早已埋伏!

下一个万亿风口!硬科技三大赛道,看懂的人早已埋伏!

Thurman在昆明
2026-02-19 23:48:34
大手笔引援却不给机会!上海国手惨遭卢伟雪藏,第一阶段只打7场

大手笔引援却不给机会!上海国手惨遭卢伟雪藏,第一阶段只打7场

老叶评球
2026-02-19 23:38:54
从短道到大道,李琰教练带队收获第9枚奥运金牌

从短道到大道,李琰教练带队收获第9枚奥运金牌

懂球帝
2026-02-20 01:27:07
他是原副总理,1975年被永远开除党籍,1979年当选为副主席

他是原副总理,1975年被永远开除党籍,1979年当选为副主席

老范谈史
2026-02-13 08:38:33
日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

随波荡漾的漂流瓶
2026-01-22 12:00:14
长沙“年入35万扛楼小伙”:不想一辈子扛楼,以后想做生意挣钱买房

长沙“年入35万扛楼小伙”:不想一辈子扛楼,以后想做生意挣钱买房

封面新闻
2026-02-19 19:49:03
中年妇女,毫无羞耻感。

中年妇女,毫无羞耻感。

老陆不老
2026-02-16 14:51:23
航程超5500公里!中国歼20再获突破,让美国霸权逻辑崩塌?

航程超5500公里!中国歼20再获突破,让美国霸权逻辑崩塌?

健身狂人
2026-02-19 23:58:55
蒋介石到死也没弄明白,红军长征时,究竟是怎么通过三条封锁线的

蒋介石到死也没弄明白,红军长征时,究竟是怎么通过三条封锁线的

大千世界观
2026-02-19 21:33:10
全球“畅销手机”年度排位:iPhone17只排第7,第一有第一的道理

全球“畅销手机”年度排位:iPhone17只排第7,第一有第一的道理

柳先说
2026-02-12 17:03:18
黄金、白银直线拉升!伊朗,大消息!

黄金、白银直线拉升!伊朗,大消息!

证券时报e公司
2026-02-19 16:37:17
2026-02-20 03:07:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2228941文章数 5497关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

体育要闻

不想退役!徐梦桃:希望能参加第6次冬奥

娱乐要闻

霍启山恋情再添实锤 和娜然同游意大利

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

旅游
家居
教育
手机
时尚

旅游要闻

拓印、剪纸、糖画“圈粉”外籍游客 沉浸式感受传统文化体验喜庆中国年

家居要闻

本真栖居 爱暖伴流年

教育要闻

春节别打乱孩子的学习节奏

手机要闻

消息称三星为防开发泄密,在公司内部上线“加密聊天”通信系统

冬季穿衣不用太复杂!内搭选高领、外套选简约款,大方又耐看

无障碍浏览 进入关怀版