网易首页 > 网易号 > 正文 申请入驻

马煜曦:为什么AI总写出“正确”却无聊的故事?

0
分享至


导语

让AI帮你写故事,体验往往是这样的:情节流畅,逻辑无懈可击,角色各就其位——但读完之后,你会发现这个故事早就在脑海中某个模糊的地方见过。没有意外,没有惊喜,只有一种令人舒适却又失望的“正确感”。

这不是幻觉,也不是你的提示词写得不够好。这是大语言模型(LLM)的结构性缺陷。近日,北京大学心理与认知科学学院、北京大学人工智能研究院的研究团队,在顶级人机交互会议CHI 2026上发表了一项研究,提出了基于进化论原理的AI辅助创意写作系统——NarrativeLoom。他们的核心主张是:更大的模型不是解药;打破“创意均质化”,需要有理论支撑的系统设计。

关键词:大语言模型、创意写作、AI人格、概率陷阱

马煜曦丨作者

赵思怡丨编辑


论文题目:NarrativeLoom: Enhancing Creative Storytelling through Multi-Persona Collaborative Improvisation 论文链接:https://yzhu.io/publication/creativity2026chi/ 发表时间:2026年1月23日 发表期刊:CHI 2026

作者简介:

AI为什么会掉入“概率陷阱”?

大语言模型的训练目标,是在给定上下文的情况下,预测下一个最可能出现的词。这一机制赋予了它惊人的流畅度——但也制造了一个根本性的矛盾:统计意义上最可能的续写,恰恰是创意上最无趣的选择。

研究者将这个现象称为“概率陷阱”(probability trap)。模型采样时总倾向于落在训练数据的统计中心,回避那些偏离均值的“异常点”。而好故事恰恰需要这些异常点——亚里士多德称之为“突转”(peripeteia):出乎意料却又合乎逻辑的戏剧性转变。

研究团队在正式研究之前访谈了5位从业2到15年以上的编剧和作家,得到了一个共识:现有AI写作工具“只会接着你说的往下写”,而不是带来“新的节拍或新的元素”。单一声音的AI输出,让写作者感到内容重复,缺乏真正新颖的叙事可能性。

向进化论借一个框架:十个AI人格上场

NarrativeLoom的答案,来自心理学家坎贝尔(Donald T. Campbell)在1960年提出的创造力理论——盲目变异与选择保留理论(BVSR),将进化论逻辑引入创造力研究:创造性思维需要两个阶段——不受既有模式约束地生成多样备选项(盲目变异),以及对有价值备选项的审慎筛选(选择保留)。


图1:NarrativeLoom 系统架构,基于 BVSR 理论的三阶段流程:盲目变异(10个AI人格并行生成)→ 选择保留(用户筛选编辑)→ 集体即兴创作(展开为完整叙事)

系统同时调用10个具有不同叙事专长的AI人格(Persona),包括科幻未来主义者、悬疑解谜者、浪漫爱情红娘、恐怖氛围营造者、反乌托邦先知、魔幻现实主义者等。每个人格为故事的当前节点(“故事节拍”)独立生成一个叙事方案,10个方案彼此隔绝。关键细节在于:这些人格并非风格差异,而是类型差异——不同的文学类型决定了不同的叙事逻辑和因果结构。


图2:NarrativeLoom 用户界面,展示从叙事初始化、多人格节拍选择、结构编辑到文本扩展的完整交互流程

面对10个差异化的方案,人类用户充当“创意总监”:评估、选择,或在选中方案上二次编辑。被选中的“故事节拍”(包含地点、时间、角色、事件的结构化单元)随后被扩展为800-1000字的叙事文本。用户重复以上过程,逐拍推进,构成完整故事。

为维护长篇故事的一致性,系统引入了基于RAG(检索增强生成)的情节控制器。每个新生成的故事节拍都会与历史叙事内容做语义一致性检验——如果检测到逻辑矛盾(如已死亡角色复活、时间线冲突),系统不会直接丢弃该方案,而是标注矛盾供用户参考,同时将一致性更高的方案排列靠前。

40 轮盲测,38 次胜出:NarrativeLoom 击败单一AI

研究团队招募了50名参与者(24女26男,平均年龄34.8岁),进行组内对照实验——每位参与者分别使用NarrativeLoom和单一AI聊天机器人各20分钟,写作顺序随机平衡,底层均调用同一模型GPT-4o。

文本分析结果相当直接:使用NarrativeLoom生成的故事平均字数为3803字,而单一聊天机器人仅1908字,差距超过一倍。NarrativeLoom故事的场景地点数量更多(3.86处 vs 2.44处),对话比例更高(30% vs 16%),可读性更好。


图3:用户评估对比(左:NarrativeLoom在多样性维度显著优于聊天机器人;右:人格使用模式,历史/反乌托邦人格充当"启动者",悬疑人格为主要“推进者”)

更有力的证据来自专家评审。4位有8-18年经验的专业编剧和作家,对随机抽取的20对故事进行盲评,采用Torrance创意写作测试(TTCW),涵盖流畅性、灵活性、独创性、细化性四维度共14个标准(满分14分),在40组故事中,专家对NarrativeLoom生成的故事产生了压倒性偏好(38次)。专家的定性反馈印证了数字:一位记者评价“这些故事把你带到你意想不到的地方……聊天机器人的故事太可预测了”。一位编剧指出NarrativeLoom的故事“以场景开始,给人一种故事被缓缓展开的感觉”,而聊天机器人“更像说明书,从上帝视角直接列举事件”。

新手受益更多,但老手写得同样更好

写作经验的分组分析中出现了一个有趣的现象。对于新手写作者,NarrativeLoom在“新颖性”维度的评分明显高于聊天机器人;对于有经验的写作者,两个系统的新颖性评分几乎相同。在易用性维度,有经验的写作者反而更偏好聊天机器人。

这与认知科学中的“专家效应逆转”(expertise reversal effect)吻合:对新手有效的脚手架式辅助,对专家而言可能是多余的认知负荷。然而有一点值得强调:从专家评审的最终故事质量看,新手和有经验写作者使用NarrativeLoom的提升幅度并无显著差异。喜不喜欢这个工具是主观偏好,但故事写得更好这件事,对两类用户都成立。

更大的模型,不是答案

这项研究提出了一个更宏观的主张:创意AI的进步,不只需要更大的模型,还需要有理论依据的系统设计。NarrativeLoom使用的底层模型与对照组完全相同——都是GPT-4o。差距并非来自算力或参数规模,而来自架构:把生成过程分离为"变异"和"筛选"两个阶段,并用人类判断占据筛选权。

当然,研究也诚实地指出了局限。类型化人格设计依赖于既有的文学传统,可能难以产生真正反传统的创意组合。评估框架主要反映西方叙事标准,跨文化适用性尚待验证。还有一个更深层的担忧:对于新手写作者,长期依赖这类脚手架式系统,是否会妨碍独立创意能力的发展?这一问题目前尚无定论,需要纵向研究来追踪。

创意从来不是孤独的产物——它从对话、碰撞与选择中诞生。NarrativeLoom把这个古老的道理编码进了系统架构。当AI不再只是续写机器,而是能递给你十种可能性、等你做决定的协作伙伴,人机共创也许才找到了它该有的样子。剩下的问题是:当这个伙伴越来越强,我们还会保留多少真正属于自己的决定?

「大模型时代下的Agent建模与仿真」读书会

集智俱乐部联合山东工商学院副教授高德华、天津大学教授薛霄、北京师范大学教授张江、国防科技大学博士研究生曾利共同发起。读书会自2025年7月8日开始,每周二晚上7:30-9:30进行,现读书会已结束,支持查看课程回放。扫码加入Agent建模与仿真的前沿探索之旅,一起共学、共创、共建、共享「大模型时代下的Agent建模与仿真」社区,共同畅想大模型时代人工社会的未来图景!

核心问题

Agent建模与仿真是什么,核心技术发生了怎样的演变?

大模型时代,Agent建模与仿真会给复杂系统理论带来哪些突破?

大模型如何赋能Agent实现自主思考与动态适应?

大模型驱动的Agent交互会涌现出什么新型的社会现象?

Agent建模与仿真如何改变金融、心理、管理、军事等领域的研究范式?

你将收获

梳理Agent建模与仿真的历史发展脉络与方法论;

掌握一套理解、分析、控制、预测复杂系统的计算实验框架;

掌握基于多主体强化学习的复杂系统优化方法;

领略领域前沿学者的研究体系与科研路径。

详情请见:

1.

2.

3.

4.

5.

6.

7.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
抗美援朝被彭总火线撤职的5位师级将领,后来都授了什么军衔

抗美援朝被彭总火线撤职的5位师级将领,后来都授了什么军衔

鹤羽说个事
2026-03-01 18:26:08
伊朗剧变24小时:谈判烟雾弹下的美以突袭如何冲击全球稳定

伊朗剧变24小时:谈判烟雾弹下的美以突袭如何冲击全球稳定

南方都市报
2026-03-01 13:46:17
哈梅内伊被精准斩首,为何伊朗人民载歌载舞?

哈梅内伊被精准斩首,为何伊朗人民载歌载舞?

历史总在押韵
2026-03-01 11:59:19
别骂内托了!切尔西 1-2 输球真凶曝光,球迷怒喷:他毁了一切!

别骂内托了!切尔西 1-2 输球真凶曝光,球迷怒喷:他毁了一切!

澜归序
2026-03-02 04:26:30
一个人最愚蠢的10种行为

一个人最愚蠢的10种行为

洞见
2026-02-27 21:10:13
伊朗导弹摧毁美军雷达中心,让中国明白:解放军武器布局走对路

伊朗导弹摧毁美军雷达中心,让中国明白:解放军武器布局走对路

墨羽怪谈
2026-03-01 03:27:27
美国变天信号出现!特朗普支持率暴跌,美媒:输的最惨的是台湾!

美国变天信号出现!特朗普支持率暴跌,美媒:输的最惨的是台湾!

青烟小先生
2026-03-01 11:28:53
曾是京城第一名媛,嫁叶剑英儿子仅24天便离婚,如今已成资本大佬

曾是京城第一名媛,嫁叶剑英儿子仅24天便离婚,如今已成资本大佬

小熊侃史
2026-03-01 17:29:14
惊人的家庭铁律:对兄弟姐妹家的孩子“不闻不问” 才是真正的

惊人的家庭铁律:对兄弟姐妹家的孩子“不闻不问” 才是真正的

户外阿毽
2026-03-01 12:15:16
大S一对子女去医院探望马筱梅,11岁玥儿抱小弟弟的画面好温馨!

大S一对子女去医院探望马筱梅,11岁玥儿抱小弟弟的画面好温馨!

娱乐团长
2026-02-27 12:27:55
肝癌后才懂放手!孙志浩全部遗产归梧桐妹,这结局谁也没料到

肝癌后才懂放手!孙志浩全部遗产归梧桐妹,这结局谁也没料到

小椰的奶奶
2026-03-01 10:32:16
张维伊难以承担董璇与小酒窝奢华消费,三亚之行显现真相

张维伊难以承担董璇与小酒窝奢华消费,三亚之行显现真相

动物奇奇怪怪
2026-03-01 20:54:36
斯诺克最新积分排名|霍金斯跃居前9,火箭跌至12,吴宜泽创新高

斯诺克最新积分排名|霍金斯跃居前9,火箭跌至12,吴宜泽创新高

越岭寻踪
2026-03-02 06:42:04
骂战升级!因一场演唱会,东南亚10国网民抱团,集体围攻韩国

骂战升级!因一场演唱会,东南亚10国网民抱团,集体围攻韩国

八斗小先生
2026-02-28 18:42:47
谷爱凌比基尼写真大片 野性十足 性感迷人 不愧是九亿少女的梦

谷爱凌比基尼写真大片 野性十足 性感迷人 不愧是九亿少女的梦

阿废冷眼观察所
2026-03-02 00:37:04
踏俄之土,充俄之军?俄罗斯要求18至65岁外国男性服兵役,到底意味着什么?

踏俄之土,充俄之军?俄罗斯要求18至65岁外国男性服兵役,到底意味着什么?

静夜史君
2026-02-27 23:56:22
造车新势力2月交付承压:零跑跌至3万辆以下,多家车企加码促销

造车新势力2月交付承压:零跑跌至3万辆以下,多家车企加码促销

澎湃新闻
2026-03-01 22:10:31
人到中年才明白:如果女人对一个男人越来越好,越来越热情、包容

人到中年才明白:如果女人对一个男人越来越好,越来越热情、包容

木言观
2026-03-01 21:20:23
汪小菲首次回应包机事件,谈到S家直呼无语,对黑粉毫不客气

汪小菲首次回应包机事件,谈到S家直呼无语,对黑粉毫不客气

小徐讲八卦
2026-03-01 06:14:05
中国军号:我们不期待,但绝不惧怕

中国军号:我们不期待,但绝不惧怕

上观新闻
2026-03-02 06:59:20
2026-03-02 07:48:49
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5684文章数 4664关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

美军动用新型武器:山寨伊朗的

头条要闻

美军动用新型武器:山寨伊朗的

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

数码
健康
亲子
房产
公开课

数码要闻

太过分了!卖家借OneDrive虚标笔记本容量:128GB秒变1TB

转头就晕的耳石症,能开车上班吗?

亲子要闻

社会需要为儿童养育提供公共空间

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版