![]()
导语
让AI帮你写故事,体验往往是这样的:情节流畅,逻辑无懈可击,角色各就其位——但读完之后,你会发现这个故事早就在脑海中某个模糊的地方见过。没有意外,没有惊喜,只有一种令人舒适却又失望的“正确感”。
这不是幻觉,也不是你的提示词写得不够好。这是大语言模型(LLM)的结构性缺陷。近日,北京大学心理与认知科学学院、北京大学人工智能研究院的研究团队,在顶级人机交互会议CHI 2026上发表了一项研究,提出了基于进化论原理的AI辅助创意写作系统——NarrativeLoom。他们的核心主张是:更大的模型不是解药;打破“创意均质化”,需要有理论支撑的系统设计。
关键词:大语言模型、创意写作、AI人格、概率陷阱
马煜曦丨作者
赵思怡丨编辑
![]()
论文题目:NarrativeLoom: Enhancing Creative Storytelling through Multi-Persona Collaborative Improvisation 论文链接:https://yzhu.io/publication/creativity2026chi/ 发表时间:2026年1月23日 发表期刊:CHI 2026
作者简介:
AI为什么会掉入“概率陷阱”?
大语言模型的训练目标,是在给定上下文的情况下,预测下一个最可能出现的词。这一机制赋予了它惊人的流畅度——但也制造了一个根本性的矛盾:统计意义上最可能的续写,恰恰是创意上最无趣的选择。
研究者将这个现象称为“概率陷阱”(probability trap)。模型采样时总倾向于落在训练数据的统计中心,回避那些偏离均值的“异常点”。而好故事恰恰需要这些异常点——亚里士多德称之为“突转”(peripeteia):出乎意料却又合乎逻辑的戏剧性转变。
研究团队在正式研究之前访谈了5位从业2到15年以上的编剧和作家,得到了一个共识:现有AI写作工具“只会接着你说的往下写”,而不是带来“新的节拍或新的元素”。单一声音的AI输出,让写作者感到内容重复,缺乏真正新颖的叙事可能性。
向进化论借一个框架:十个AI人格上场
NarrativeLoom的答案,来自心理学家坎贝尔(Donald T. Campbell)在1960年提出的创造力理论——盲目变异与选择保留理论(BVSR),将进化论逻辑引入创造力研究:创造性思维需要两个阶段——不受既有模式约束地生成多样备选项(盲目变异),以及对有价值备选项的审慎筛选(选择保留)。
![]()
图1:NarrativeLoom 系统架构,基于 BVSR 理论的三阶段流程:盲目变异(10个AI人格并行生成)→ 选择保留(用户筛选编辑)→ 集体即兴创作(展开为完整叙事)
系统同时调用10个具有不同叙事专长的AI人格(Persona),包括科幻未来主义者、悬疑解谜者、浪漫爱情红娘、恐怖氛围营造者、反乌托邦先知、魔幻现实主义者等。每个人格为故事的当前节点(“故事节拍”)独立生成一个叙事方案,10个方案彼此隔绝。关键细节在于:这些人格并非风格差异,而是类型差异——不同的文学类型决定了不同的叙事逻辑和因果结构。
![]()
图2:NarrativeLoom 用户界面,展示从叙事初始化、多人格节拍选择、结构编辑到文本扩展的完整交互流程
面对10个差异化的方案,人类用户充当“创意总监”:评估、选择,或在选中方案上二次编辑。被选中的“故事节拍”(包含地点、时间、角色、事件的结构化单元)随后被扩展为800-1000字的叙事文本。用户重复以上过程,逐拍推进,构成完整故事。
为维护长篇故事的一致性,系统引入了基于RAG(检索增强生成)的情节控制器。每个新生成的故事节拍都会与历史叙事内容做语义一致性检验——如果检测到逻辑矛盾(如已死亡角色复活、时间线冲突),系统不会直接丢弃该方案,而是标注矛盾供用户参考,同时将一致性更高的方案排列靠前。
40 轮盲测,38 次胜出:NarrativeLoom 击败单一AI
研究团队招募了50名参与者(24女26男,平均年龄34.8岁),进行组内对照实验——每位参与者分别使用NarrativeLoom和单一AI聊天机器人各20分钟,写作顺序随机平衡,底层均调用同一模型GPT-4o。
文本分析结果相当直接:使用NarrativeLoom生成的故事平均字数为3803字,而单一聊天机器人仅1908字,差距超过一倍。NarrativeLoom故事的场景地点数量更多(3.86处 vs 2.44处),对话比例更高(30% vs 16%),可读性更好。
![]()
图3:用户评估对比(左:NarrativeLoom在多样性维度显著优于聊天机器人;右:人格使用模式,历史/反乌托邦人格充当"启动者",悬疑人格为主要“推进者”)
更有力的证据来自专家评审。4位有8-18年经验的专业编剧和作家,对随机抽取的20对故事进行盲评,采用Torrance创意写作测试(TTCW),涵盖流畅性、灵活性、独创性、细化性四维度共14个标准(满分14分),在40组故事中,专家对NarrativeLoom生成的故事产生了压倒性偏好(38次)。专家的定性反馈印证了数字:一位记者评价“这些故事把你带到你意想不到的地方……聊天机器人的故事太可预测了”。一位编剧指出NarrativeLoom的故事“以场景开始,给人一种故事被缓缓展开的感觉”,而聊天机器人“更像说明书,从上帝视角直接列举事件”。
新手受益更多,但老手写得同样更好
写作经验的分组分析中出现了一个有趣的现象。对于新手写作者,NarrativeLoom在“新颖性”维度的评分明显高于聊天机器人;对于有经验的写作者,两个系统的新颖性评分几乎相同。在易用性维度,有经验的写作者反而更偏好聊天机器人。
这与认知科学中的“专家效应逆转”(expertise reversal effect)吻合:对新手有效的脚手架式辅助,对专家而言可能是多余的认知负荷。然而有一点值得强调:从专家评审的最终故事质量看,新手和有经验写作者使用NarrativeLoom的提升幅度并无显著差异。喜不喜欢这个工具是主观偏好,但故事写得更好这件事,对两类用户都成立。
更大的模型,不是答案
这项研究提出了一个更宏观的主张:创意AI的进步,不只需要更大的模型,还需要有理论依据的系统设计。NarrativeLoom使用的底层模型与对照组完全相同——都是GPT-4o。差距并非来自算力或参数规模,而来自架构:把生成过程分离为"变异"和"筛选"两个阶段,并用人类判断占据筛选权。
当然,研究也诚实地指出了局限。类型化人格设计依赖于既有的文学传统,可能难以产生真正反传统的创意组合。评估框架主要反映西方叙事标准,跨文化适用性尚待验证。还有一个更深层的担忧:对于新手写作者,长期依赖这类脚手架式系统,是否会妨碍独立创意能力的发展?这一问题目前尚无定论,需要纵向研究来追踪。
创意从来不是孤独的产物——它从对话、碰撞与选择中诞生。NarrativeLoom把这个古老的道理编码进了系统架构。当AI不再只是续写机器,而是能递给你十种可能性、等你做决定的协作伙伴,人机共创也许才找到了它该有的样子。剩下的问题是:当这个伙伴越来越强,我们还会保留多少真正属于自己的决定?
「大模型时代下的Agent建模与仿真」读书会
集智俱乐部联合山东工商学院副教授高德华、天津大学教授薛霄、北京师范大学教授张江、国防科技大学博士研究生曾利共同发起。读书会自2025年7月8日开始,每周二晚上7:30-9:30进行,现读书会已结束,支持查看课程回放。扫码加入Agent建模与仿真的前沿探索之旅,一起共学、共创、共建、共享「大模型时代下的Agent建模与仿真」社区,共同畅想大模型时代人工社会的未来图景!
核心问题
Agent建模与仿真是什么,核心技术发生了怎样的演变?
大模型时代,Agent建模与仿真会给复杂系统理论带来哪些突破?
大模型如何赋能Agent实现自主思考与动态适应?
大模型驱动的Agent交互会涌现出什么新型的社会现象?
Agent建模与仿真如何改变金融、心理、管理、军事等领域的研究范式?
你将收获
梳理Agent建模与仿真的历史发展脉络与方法论;
掌握一套理解、分析、控制、预测复杂系统的计算实验框架;
掌握基于多主体强化学习的复杂系统优化方法;
领略领域前沿学者的研究体系与科研路径。
详情请见:
1.
2.
3.
4.
5.
6.
7.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.