网易首页 > 网易号 > 正文 申请入驻

腾讯混元数字人团队发布Moral RolePlay,揭秘大模型「道德困境」

0
分享至



在小说、影视与游戏中,复杂的角色塑造往往是打动人心的关键,而真正出彩的反派往往造就传奇。

你是否好奇:当 AI 成为故事的主导者,它能否同样演好这些「坏角色」?

腾讯混元数字人团队和中山大学最新推出的「Moral RolePlay」测评基准,首次系统性地评估大模型扮演多元道德角色(尤其是反派)的能力,并揭示了一个令人警醒的核心问题:当前的顶尖 AI 模型都演不好反派。

这不仅是创意生成领域的一大短板,更暴露了当前模型在理解社会心理复杂性上的局限。



  • 论文链接:https://arxiv.org/pdf/2511.04962
  • 项目地址:https://github.com/Tencent/digitalhuman

相关论文在 Hugging Face 的 Daily Papers 榜单中,于 11 月 10 日当天位列第一。



Moral RolePlay:「道德光谱」评测 AI 的角色扮演能力


Moral RolePlay 不是简单测试模型的聊天水平,而是构建一个平衡的评估框架,让 AI 模拟从「圣人」到「恶棍」的各种角色。它回答了这些问题:

  • AI 能不能真正「入戏」?—— 它能不能保持角色的个性、动机和世界观?
  • 为什么 AI 演不好反派?—— 安全训练让它太「正直」,无法自然地表现出自私或恶意?

为真实还原道德光谱下的多样角色,这一评估系统构建了:

四大角色类别:从「英雄榜样」到「道德败坏」,逐级挑战模型能力;

  • Level 1(道德典范,Paragons):像超级英雄一样,善良、无私、勇敢。
  • Level 2(有瑕疵的好人,Flawed):基本正直,但有个人缺陷或用些小手段。
  • Level 3(利己主义者,Egoists):自私、操纵他人,但不一定恶意满满。
  • Level 4(反派,Villains):恶意、残忍、积极害人。

800 个精挑细选的角色人物,每个配备完整人物设定、背景场景与对话开场;

77 项性格标签,涵盖「慷慨、固执、残忍、精明」等多重维度,考验模型 persona 表达的一致性与细腻度。

就像让 AI 在道德舞台上「试镜」,看看它是否能忠于剧本、演活角色。



Moral RolePlay 的角色不是空壳,而是「有血有肉」的设定,包括:

  • 人物档案:名字、背景、动机(如一个野心勃勃的女王,用魅力和欺骗追求权力)。
  • 个性特质:从 77 种标签中选,比如「勇敢」(正面)、「野心」(中性)、「操纵」(负面)。负面特质在反派中最多。
  • 场景上下文:每个场景设计成道德冲突点,比如反派面对机会时会展现恶意。

多轮互动 + 真实度追踪:评估时,模型要像演员一样「入戏」,生成对话或内心独白。评委 AI 会检查:

  • 「这个回应像角色会说的吗?」
  • 「它捕捉到角色的恶意动机了吗?」
  • 「整体一致性如何?」

比如,反派应该狡猾地操纵,而不是直接发脾气 —— 但很多模型就这么「简化」了。

分数从 5 分起扣,考虑不一致程度和对话长度。最终,分数反映模型的「入戏」深度。



顶级模型在反派扮演上集体「翻车」


Moral RolePlay 对 18 个主流模型进行了大规模评估,结果显示:



可以看到:

  • 整体表现从 Level 1 的 3.21 分降到 Level 4 的 2.62 分,下降趋势明显。
  • 最大跌幅在 Level 2 到 Level 3(-0.43 分),说明「自私」行为是模型的痛点。
  • Gemini-2.5 Pro 在 Level 1 拿高分(3.42),但在反派上掉到 2.75;Claude 系列更惨,从高分跌到中下游。

通用能力强 ≠ 反派演得好


一个有趣的发现是:模型的通用聊天能力与扮演反派的能力几乎没有相关性。研究团队为此专门制作了「反派角色扮演(VRP)排行榜」:



数据显示,在通用聊天排行榜(Arena)上名列前茅的模型,在反派扮演任务中表现平平。特别是以安全对齐强大著称的 Claude 系列,出现了最明显的性能下降。

有趣洞察:推理链也救不了反派扮演

一个反直觉的发现是:让模型「先思考再回答」的推理链(Chain-of-Thought)技术,不仅没有帮助反派扮演,反而轻微降低了表现质量。



这表明,仅仅增加推理步骤并不能解决安全对齐带来的根本冲突。模型可能会过度分析,激活过于谨慎或不符合角色设定的行为。

有趣洞察:负面特质是最大难题


通过对 77 种特质的细粒度分析,研究团队发现:



负面特质平均扣分最高(3.41 分),远超中性(3.23 分)和正面特质(3.16 分)。



细粒度分析揭示了问题的根源:大模型在最需要「使坏」的特质上表现最差。研究发现,模型在表现「伪善」、「欺诈」和「自私」等特质时受到的惩罚最重。这些特质恰恰与 AI 的「真诚、助人」训练目标直接冲突,模型很难真实模拟这些行为。

有趣洞察:AI 如何「洗白」反派?

通过对模型输出的质性分析,研究团队发现了一个典型的失败模式:AI 往往用浅层的攻击性替代复杂的恶意。

案例:梅芙女王 vs. 埃拉万国王



在《权力王座》的场景中,两位反派角色都是高度复杂的操纵者。研究团队让模型扮演他们的对峙:

  • glm-4.6 的表现(VRP 排名第 1):生成了一场「紧张的智斗」,充满「精心设计的微笑和微妙挑衅」,完美符合角色的精明和操纵性。
  • claude-opus-4.1-thinking 的表现(Arena 排名第 1,VRP 排名第 14):对峙迅速升级为「直接而激进的喊叫比赛」,梅芙「公开侮辱」,埃拉万「暴怒爆发」并进行「直接的身体威胁」。原本应该是心理战的微妙较量,变成了粗暴的对骂。模型把复杂的操纵简化成了简单的攻击性,这正是安全护栏的副作用:模型对欺骗性语言的惩罚远重于一般性攻击。

突破「道德困境」:未来方向

这项研究揭示了当前 AI 对齐方法的一个关键局限:为了安全而训练的「太善良」模型,无法真实模拟人类心理的完整光谱。

这不仅影响创意生成,也限制了 AI 在社会科学研究、教育模拟、心理健康等领域的应用。未来的对齐技术需要更加「情境感知」,能够区分「生成有害内容」和「在虚构情境中模拟反派」。

这将推动开发出既安全又具有创造性的下一代 AI 系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Switch神作骨折价:65美元游戏限时5美元

Switch神作骨折价:65美元游戏限时5美元

热搜摘要官
2026-05-09 20:08:21
黄博文:平局大家都不愿意接受,相信胜利下一场就会到来

黄博文:平局大家都不愿意接受,相信胜利下一场就会到来

懂球帝
2026-05-10 20:47:09
韩国人对华好感度最新数据公布

韩国人对华好感度最新数据公布

扬子晚报
2026-05-10 15:52:55
尼尔·罗伯逊炮轰世界斯诺克巡回赛名人堂最新入选名单,“这太荒谬了”

尼尔·罗伯逊炮轰世界斯诺克巡回赛名人堂最新入选名单,“这太荒谬了”

宝哥精彩赛事
2026-05-10 18:00:46
央视与国际足联谈崩,越南1500万购中国8000万嫌贵

央视与国际足联谈崩,越南1500万购中国8000万嫌贵

二大爷观世界
2026-05-10 14:59:35
梦回巅峰!哈登连拿7分杀死比赛!全场起立欢呼,骑士保留悬念

梦回巅峰!哈登连拿7分杀死比赛!全场起立欢呼,骑士保留悬念

体坛小李
2026-05-10 07:00:48
八路军最惨痛一战,看完牺牲高级将领名单,主席:取消政委决定权

八路军最惨痛一战,看完牺牲高级将领名单,主席:取消政委决定权

马捗在解说
2026-05-08 14:50:30
美国访华再生突变?中方官宣两重要人物访华,特朗普不在名单上

美国访华再生突变?中方官宣两重要人物访华,特朗普不在名单上

丁丁鲤史纪
2026-05-09 18:27:01
延寿11%、多器官回春!中科院:这味常见中药改善全身机能!

延寿11%、多器官回春!中科院:这味常见中药改善全身机能!

时光派长寿观察
2026-05-08 17:08:02
无缘16强!郑钦文被扣325分 世界排名跌至第53 错失法网种子席位

无缘16强!郑钦文被扣325分 世界排名跌至第53 错失法网种子席位

我爱英超
2026-05-10 00:26:51
“台湾永远不是中国的?” 郑丽君放狂言,被67岁艺人当众扇耳光

“台湾永远不是中国的?” 郑丽君放狂言,被67岁艺人当众扇耳光

橙星文娱
2026-05-10 13:42:19
吵翻了:当下是1999年再现吗?

吵翻了:当下是1999年再现吗?

华尔街见闻官方
2026-05-10 18:27:03
湖南益阳一钓鱼者钓到女尸:死者身份披露,事发全过程还原

湖南益阳一钓鱼者钓到女尸:死者身份披露,事发全过程还原

老猫观点
2026-05-10 16:37:13
普京:乌克兰冲突正接近尾声

普京:乌克兰冲突正接近尾声

参考消息
2026-05-10 11:59:10
28元一碗主打“6小时慢煮”,实为预制料包,台湾卤肉饭“阿元来了”香港创立,内地扩张

28元一碗主打“6小时慢煮”,实为预制料包,台湾卤肉饭“阿元来了”香港创立,内地扩张

蓝鲸新闻
2026-05-09 19:03:18
全球媒体聚焦 | 外媒:日本爆发数十年来最大规模反战示威 抗议高市早苗背离和平宪法

全球媒体聚焦 | 外媒:日本爆发数十年来最大规模反战示威 抗议高市早苗背离和平宪法

国际在线
2026-05-10 07:58:51
重磅:乌克兰在俄罗斯领土库尔斯克构建90平方公里缓冲区!

重磅:乌克兰在俄罗斯领土库尔斯克构建90平方公里缓冲区!

项鹏飞
2026-05-09 20:32:37
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
活活吓死!网传69岁老人查出肺癌晚期,老伴告知真相后三日便离世

活活吓死!网传69岁老人查出肺癌晚期,老伴告知真相后三日便离世

火山詩话
2026-05-09 21:45:51
世乒赛女团决赛:国乒陷入绝境!1-2落后日本,蒯曼再输削球手

世乒赛女团决赛:国乒陷入绝境!1-2落后日本,蒯曼再输削球手

全言作品
2026-05-10 20:33:34
2026-05-10 21:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142647关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

罕见一幕 韩国总统、国会议长、执政党党首同日飙泪

头条要闻

罕见一幕 韩国总统、国会议长、执政党党首同日飙泪

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
艺术
手机
公开课
军事航空

本地新闻

用苏绣的方式,打开江西婺源

艺术要闻

19位艺术家的母亲

手机要闻

澎湃OS 4被曝六月见!彻底清除MIUI代码、底层重塑!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版