多人协作写故事,最难的不是让AI说话,而是让它们"记得"彼此在说什么。Story Swarm这个实验项目,把这个问题拆解成了三层状态管理——而最有趣的是,它让界面本身也成了叙事的一部分。
普通聊天应用的状态是线性的:你说一句,AI回一句,历史记录按时间堆叠就行。但多智能体系统里,每个"写手"需要看到不同的上下文。Story Swarm的做法是:共享手稿只保留最近10轮对话,但每个智能体拿到的格式各不相同。用Zustand做状态管理,看中的是它在流式响应场景下的低延迟——毕竟没人愿意等AI"打字"的时候界面卡顿。
![]()
更花哨的是实时类型检测。每隔几轮,完整剧本会被送进一次辅助的Gemini调用,返回一个两词标签,比如"赛博朋克黑色电影"。这个字符串会触发前端的CSS变量更新,整个界面的光晕色调随之改变。代码里写得很直白:径向渐变的颜色从青色变量读取,透明度15%,中心对准屏幕正中。技术实现不复杂,但把"故事走到哪了"变成了肉眼可见的环境反馈。
![]()
项目还藏了一个"导演"智能体。它不写对白,只输出元评论——相当于给这场AI协作加上了解说音轨。用户看到的不是冷冰冰的API调用日志,而是一个仿佛有摄像机在拍的实时编剧室。这种元虚构层的设计,把工具属性转化成了体验属性。
架构上留了后手:智能体可以按个切换底层模型,Gemini、Llama 3、GPT-4o混着用。这意味着同一段情节,可以用不同厂商的模型同时生成,实时对比谁的"创意写作"更对味。提供商无关的设计,在这里成了评测手段。
![]()
代码和详细文档已开源。从实现细节看,这个项目更像是在探索"多智能体系统的UX边界"——当AI能同时扮演多个角色时,界面该怎么呈现这种复杂性,而不让用户陷入混乱。把类型标签映射到视觉风格,用元评论降低认知负荷,这些选择都在回答同一个问题:技术透明度与叙事沉浸感,平衡点在哪。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.