马煜曦：为什么AI总写出“正确”却无聊的故事？|人格|机器人

马煜曦：为什么AI总写出“正确”却无聊的故事？

2026-03-01 15:12:14　来源: 集智俱乐部

北京举报

分享至

导语

让AI帮你写故事，体验往往是这样的：情节流畅，逻辑无懈可击，角色各就其位——但读完之后，你会发现这个故事早就在脑海中某个模糊的地方见过。没有意外，没有惊喜，只有一种令人舒适却又失望的“正确感”。

这不是幻觉，也不是你的提示词写得不够好。这是大语言模型（LLM）的结构性缺陷。近日，北京大学心理与认知科学学院、北京大学人工智能研究院的研究团队，在顶级人机交互会议CHI 2026上发表了一项研究，提出了基于进化论原理的AI辅助创意写作系统——NarrativeLoom。他们的核心主张是：更大的模型不是解药；打破“创意均质化”，需要有理论支撑的系统设计。

关键词：大语言模型、创意写作、AI人格、概率陷阱

马煜曦丨作者

赵思怡丨编辑

论文题目：NarrativeLoom: Enhancing Creative Storytelling through Multi-Persona Collaborative Improvisation 论文链接：https://yzhu.io/publication/creativity2026chi/ 发表时间：2026年1月23日发表期刊：CHI 2026

作者简介：

AI为什么会掉入“概率陷阱”？

大语言模型的训练目标，是在给定上下文的情况下，预测下一个最可能出现的词。这一机制赋予了它惊人的流畅度——但也制造了一个根本性的矛盾：统计意义上最可能的续写，恰恰是创意上最无趣的选择。

研究者将这个现象称为“概率陷阱”（probability trap）。模型采样时总倾向于落在训练数据的统计中心，回避那些偏离均值的“异常点”。而好故事恰恰需要这些异常点——亚里士多德称之为“突转”（peripeteia）：出乎意料却又合乎逻辑的戏剧性转变。

研究团队在正式研究之前访谈了5位从业2到15年以上的编剧和作家，得到了一个共识：现有AI写作工具“只会接着你说的往下写”，而不是带来“新的节拍或新的元素”。单一声音的AI输出，让写作者感到内容重复，缺乏真正新颖的叙事可能性。

向进化论借一个框架：十个AI人格上场

NarrativeLoom的答案，来自心理学家坎贝尔（Donald T. Campbell）在1960年提出的创造力理论——盲目变异与选择保留理论（BVSR），将进化论逻辑引入创造力研究：创造性思维需要两个阶段——不受既有模式约束地生成多样备选项（盲目变异），以及对有价值备选项的审慎筛选（选择保留）。

图1：NarrativeLoom 系统架构，基于 BVSR 理论的三阶段流程：盲目变异（10个AI人格并行生成）→ 选择保留（用户筛选编辑）→ 集体即兴创作（展开为完整叙事）

系统同时调用10个具有不同叙事专长的AI人格（Persona），包括科幻未来主义者、悬疑解谜者、浪漫爱情红娘、恐怖氛围营造者、反乌托邦先知、魔幻现实主义者等。每个人格为故事的当前节点（“故事节拍”）独立生成一个叙事方案，10个方案彼此隔绝。关键细节在于：这些人格并非风格差异，而是类型差异——不同的文学类型决定了不同的叙事逻辑和因果结构。

图2：NarrativeLoom 用户界面，展示从叙事初始化、多人格节拍选择、结构编辑到文本扩展的完整交互流程

面对10个差异化的方案，人类用户充当“创意总监”：评估、选择，或在选中方案上二次编辑。被选中的“故事节拍”（包含地点、时间、角色、事件的结构化单元）随后被扩展为800-1000字的叙事文本。用户重复以上过程，逐拍推进，构成完整故事。

为维护长篇故事的一致性，系统引入了基于RAG（检索增强生成）的情节控制器。每个新生成的故事节拍都会与历史叙事内容做语义一致性检验——如果检测到逻辑矛盾（如已死亡角色复活、时间线冲突），系统不会直接丢弃该方案，而是标注矛盾供用户参考，同时将一致性更高的方案排列靠前。

40 轮盲测，38 次胜出：NarrativeLoom 击败单一AI

研究团队招募了50名参与者（24女26男，平均年龄34.8岁），进行组内对照实验——每位参与者分别使用NarrativeLoom和单一AI聊天机器人各20分钟，写作顺序随机平衡，底层均调用同一模型GPT-4o。

文本分析结果相当直接：使用NarrativeLoom生成的故事平均字数为3803字，而单一聊天机器人仅1908字，差距超过一倍。NarrativeLoom故事的场景地点数量更多（3.86处 vs 2.44处），对话比例更高（30% vs 16%），可读性更好。

图3：用户评估对比（左：NarrativeLoom在多样性维度显著优于聊天机器人；右：人格使用模式，历史/反乌托邦人格充当"启动者"，悬疑人格为主要“推进者”）

更有力的证据来自专家评审。4位有8-18年经验的专业编剧和作家，对随机抽取的20对故事进行盲评，采用Torrance创意写作测试（TTCW），涵盖流畅性、灵活性、独创性、细化性四维度共14个标准（满分14分），在40组故事中，专家对NarrativeLoom生成的故事产生了压倒性偏好（38次）。专家的定性反馈印证了数字：一位记者评价“这些故事把你带到你意想不到的地方……聊天机器人的故事太可预测了”。一位编剧指出NarrativeLoom的故事“以场景开始，给人一种故事被缓缓展开的感觉”，而聊天机器人“更像说明书，从上帝视角直接列举事件”。

新手受益更多，但老手写得同样更好

写作经验的分组分析中出现了一个有趣的现象。对于新手写作者，NarrativeLoom在“新颖性”维度的评分明显高于聊天机器人；对于有经验的写作者，两个系统的新颖性评分几乎相同。在易用性维度，有经验的写作者反而更偏好聊天机器人。

这与认知科学中的“专家效应逆转”（expertise reversal effect）吻合：对新手有效的脚手架式辅助，对专家而言可能是多余的认知负荷。然而有一点值得强调：从专家评审的最终故事质量看，新手和有经验写作者使用NarrativeLoom的提升幅度并无显著差异。喜不喜欢这个工具是主观偏好，但故事写得更好这件事，对两类用户都成立。

更大的模型，不是答案

这项研究提出了一个更宏观的主张：创意AI的进步，不只需要更大的模型，还需要有理论依据的系统设计。NarrativeLoom使用的底层模型与对照组完全相同——都是GPT-4o。差距并非来自算力或参数规模，而来自架构：把生成过程分离为"变异"和"筛选"两个阶段，并用人类判断占据筛选权。

当然，研究也诚实地指出了局限。类型化人格设计依赖于既有的文学传统，可能难以产生真正反传统的创意组合。评估框架主要反映西方叙事标准，跨文化适用性尚待验证。还有一个更深层的担忧：对于新手写作者，长期依赖这类脚手架式系统，是否会妨碍独立创意能力的发展？这一问题目前尚无定论，需要纵向研究来追踪。

创意从来不是孤独的产物——它从对话、碰撞与选择中诞生。NarrativeLoom把这个古老的道理编码进了系统架构。当AI不再只是续写机器，而是能递给你十种可能性、等你做决定的协作伙伴，人机共创也许才找到了它该有的样子。剩下的问题是：当这个伙伴越来越强，我们还会保留多少真正属于自己的决定？

「大模型时代下的Agent建模与仿真」读书会

集智俱乐部联合山东工商学院副教授高德华、天津大学教授薛霄、北京师范大学教授张江、国防科技大学博士研究生曾利共同发起。读书会自2025年7月8日开始，每周二晚上7:30-9:30进行，现读书会已结束，支持查看课程回放。扫码加入Agent建模与仿真的前沿探索之旅，一起共学、共创、共建、共享「大模型时代下的Agent建模与仿真」社区，共同畅想大模型时代人工社会的未来图景！

核心问题

Agent建模与仿真是什么，核心技术发生了怎样的演变？

大模型时代，Agent建模与仿真会给复杂系统理论带来哪些突破？

大模型如何赋能Agent实现自主思考与动态适应？

大模型驱动的Agent交互会涌现出什么新型的社会现象？

Agent建模与仿真如何改变金融、心理、管理、军事等领域的研究范式？

你将收获

梳理Agent建模与仿真的历史发展脉络与方法论；

掌握一套理解、分析、控制、预测复杂系统的计算实验框架；

掌握基于多主体强化学习的复杂系统优化方法；

领略领域前沿学者的研究体系与科研路径。

详情请见：

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.