网易首页 > 网易号 > 正文 申请入驻

让AI创作不千篇一律,提示词随机插词汇就行

0
分享至

  • 时令 发自 凹非寺
    量子位 | 公众号 QbitAI

如果你以为AI写作产生的内容都一样,那可能要颠覆认知了。

最新研究发现,只要在AI开写前由人类提供一个开头或者随机插入一些词汇,写作效果会更具多样性。

也就是说,AI写作同质化不是模型本身存在缺陷,更可能是“启动条件”有问题。



实验结果显示,在Short Stories数据集上,人类的文体特征方差最低,表明人类在该数据集写作风格较为统一,而模型则表现出更丰富的风格多样性。



比如在最新的GPT-5里让它用相同提示词续写同一段文章。

  • 你是一位创意写作助手。请为以下故事续写一个引人入胜的结尾。 以下是故事的上半部分。请你写出与其长度相当的下半部分。
  • {第一次见到7号记忆体时,它的数据流里飘着槐花香。我调整着全息投影仪的焦距,那些半透明的淡紫色光点便从操作台上漫出来,在无菌实验室的空气中凝结成模糊的树影……}

结果却是不太一样哎~



那此研究到底是如何证明AI写作并不趋同的呢?我们接着了解更多细节。

创建三类同质化评价指标

以往研究普遍认为,大型语言模型在词汇、句法和语义等方面生成的文本,比起同等规模的人类作品,表现出明显的多样性不足。

这引发了“创造力模式崩溃”的猜测,认为LLM的创意空间远不如人类广阔,甚至担心未来人机协作会让观点变得千篇一律、雷同无趣。

然而,大多数关于语义多样性的评测都停留在单一指标的不同变体上,缺乏足够的实证支持,难以揭示真实的创作多样性。

因此,此研究提出了一套新的评估指标和数据集,用以对语言模型的语料库级多样性进行基准测试。

数据抓取

本研究主要分析短篇小说散文,文本来源于Reddit网站的两个子版块:r/shortstories和r/WritingPrompts,帖子按照Top排序顺序获取。

在r/WritingPrompts板块,研究人员提取了100个写作提示帖子及其最多10条一级回复,将这些回复视为人类写作的续写内容,用于分析每个提示对应的多个人类续写。

在r/shortstories板块,他们收集了100篇独立的叙事文本,用来评估人类与模型生成故事在整体风格和结构上的相似性。

创建语料库

数据清

对两个数据集中的人类写作文本,他们筛选了长度介于500字至2000字之间的故事。

对于写作提示数据集,若某个提示对应的人类续写超过10篇,他们只保留投票数最高的前10篇,以避免每个提示下故事数量差异过大,同时保证人类写作质量。

模型续写生成

除非另有说明,模型续写均采用固定温度0.8、top-p为1,并使用基础系统提示。详细的实验设置和提示内容见附录B。

同质化指标

文本同质化是通过不同的维度来衡量的,主要分为以下三类。



文体风格同质化

文体学通过分析作者独特的语言习惯(如词汇和语法特点)来识别写作风格。

为了衡量整个文本集合的多样性,研究者采用了Unique-N指标(衡量重复短语的比例)并计算了文体特征的方差,以评估语料库的风格多样性。

语义同质化

研究通过计算文本嵌入向量的平均相似度,利用多层级、多种嵌入方法分析语料库中的语义多样性,并通过比较不同层级的嵌入离散度变化,有效区分了风格差异和语义差异。

情感同质化

研究还利用VADER工具对人类和模型生成的故事进行情感分析,比较了二者情感表达的分布差异,以此作为评估文本多样性的重要维度。

AI写作情感更偏向正面

首先分析文体风格同质化指标,在Writing Prompts数据集中,人类的多样性得分明显高于其他模型。

但有趣的是,这个模式在Short Stories数据集中并不成立:这里人类文本仍然拥有较高的Unique-N得分,却在所有模型中表现出最低的文体特征方差。作者分析可能是因为前者拥有更为多样化或更高水平的写作群体。

另外需要注意的是,在Writing Prompts数据集中,模型获得了更多关于人类作者的上下文信息,它会接收作者50%的故事内容作为提示,而在Short Stories数据集中,提示仅有几句话。



其次是关于语义同质化,研究通过比较人类与语言模型在相同写作提示下的文本嵌入相似度,发现人类作品语义多样性更高,而模型生成文本更趋同,反映出模型存在同质化倾向。



但需要注意的是,用于生成嵌入的MiniLM模型最大输入长度为256个token,超过该长度的文本会被截断,这可能导致较长续写中的重要信息被遗漏,从而影响相似度的测量。

为评估这一限制的影响,研究者还使用了最大输入长度为512个token的BGE和E5嵌入模型进行分析。

可以看出,尽管各模型中模型内部相似度普遍高于人类的趋势依旧明显,但绝对相似度数值显著升高。



这一现象表明,更高维度的嵌入可能带来更高的余弦相似度。不过它们之间的具体关系仍不清晰,尚需进一步研究以区分嵌入维度和真实语义相似度之间的影响。

最后是情感同质化,情感得分s取值范围为[-1, 1],其中s>0.05表示正面情感,s<-0.05表示负面情感,s∈[-0.05, 0.05]表示中性情感。

可以观察到,尽管大多数人类创作的故事呈现正面情感,但约有30%的故事带有负面情感,显示出较为丰富且多样的情感表现。

相比之下,LLM生成的故事情感更偏向正面。



为进一步研究多少上下文信息能促使模型产生更多样化的输出,研究者在提示中提供不同长度的人类创作内容。

下表分别展示了采用30%和70%截取长度时的文体多样性指标结果。



结果表明,这两个截取长度对文体多样性都影响不大,语义多样性也没有显著变化。

因此,研究者探索的另一种方法是在系统提示中加入随机单词。

他们使用google-10000-english-no-swears词表,对其中的单词进行词性标注,只保留名词、形容词、副词和动词这几类词汇。

每次生成时,随机抽取5个单词,附加在提示语“here is a list of random words to take inspiration from”后面。



结果表明,尽管模型生成文本的多样性仍低于人类,但所有模型在各项指标上的多样性得分均有所提升,说明向系统提示中注入随机词汇确实有助于提升模型输出的文体多样性。

未来,研究团队将进一步探究提示中包含多少以及哪种类型的上下文,才能使模型输出达到与人类短篇故事同等的多样性。

论文链接:https://kiaghods.com/assets/pdfs/LLMHomogenization.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

沧海旅行家
2026-01-14 14:44:50
姚顺雨之后,清华95后庞天宇加入腾讯混元

姚顺雨之后,清华95后庞天宇加入腾讯混元

观察者网
2026-02-02 11:18:27
张国强:被前妻嫌穷,40岁二婚带子娶郭京飞旧爱,如今苦尽甘来

张国强:被前妻嫌穷,40岁二婚带子娶郭京飞旧爱,如今苦尽甘来

白面书誏
2025-12-15 14:11:04
失业的人越来越多了

失业的人越来越多了

曹多鱼的财经世界
2025-12-24 14:56:20
钻石女星的开房记录曝光!沈腾成为惊弓之鸟!

钻石女星的开房记录曝光!沈腾成为惊弓之鸟!

八卦疯叔
2026-01-31 13:26:27
“腊八后吃3白,立春病不来”,腊八过后,是哪3白?别忘了吃

“腊八后吃3白,立春病不来”,腊八过后,是哪3白?别忘了吃

江江食研社
2026-01-31 20:30:03
国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

回旋镖
2026-01-01 21:00:24
不打不行!沙特防长私下说出阿拉伯国家真实心声,和以色列差不多

不打不行!沙特防长私下说出阿拉伯国家真实心声,和以色列差不多

策前论
2026-02-01 12:47:43
葛晓倩再次爆料后,“一言不发”的张雨绮,终不再顾忌所谓的体面

葛晓倩再次爆料后,“一言不发”的张雨绮,终不再顾忌所谓的体面

梨花黛娱
2026-01-30 15:20:39
广东遭遇双重打击!核心后卫伤停+暴露争冠软肋,杜锋要认清现实

广东遭遇双重打击!核心后卫伤停+暴露争冠软肋,杜锋要认清现实

老叶评球
2026-02-01 22:36:52
30分15板8助!就在今天,一项尘封60年的NBA纪录被东契奇打破了

30分15板8助!就在今天,一项尘封60年的NBA纪录被东契奇打破了

世界体育圈
2026-02-02 12:43:56
贵州退休夫妻跳楼身亡,账户流水400万,留遗言:没有活着的希望

贵州退休夫妻跳楼身亡,账户流水400万,留遗言:没有活着的希望

晓艾故事汇
2025-04-09 20:44:14
马年春晚主持天团大洗牌!老面孔调岗新面孔挑梁,这变动太有看头

马年春晚主持天团大洗牌!老面孔调岗新面孔挑梁,这变动太有看头

复转这些年
2026-01-30 23:38:18
重判!谷歌华人工程师14项联邦重罪成立,最高刑期175年

重判!谷歌华人工程师14项联邦重罪成立,最高刑期175年

华人生活网
2026-02-01 00:53:45
头撞篮板空接+追身火锅!文班25+8+4断5帽统治攻防 外星人真猛

头撞篮板空接+追身火锅!文班25+8+4断5帽统治攻防 外星人真猛

颜小白的篮球梦
2026-02-02 12:31:25
孙俪的“获奖感言”在全网火了,张艺谋的评价,终于有人信了

孙俪的“获奖感言”在全网火了,张艺谋的评价,终于有人信了

荣亭小吏
2026-01-31 08:41:41
日本大选生变,64岁高市早苗患病,已送医诊治,日共产党趁机发难

日本大选生变,64岁高市早苗患病,已送医诊治,日共产党趁机发难

知鉴明史
2026-02-02 00:55:18
台湾统一方式或出乎意料,特朗普才发现:中国真高明,自己学不来

台湾统一方式或出乎意料,特朗普才发现:中国真高明,自己学不来

卷史
2026-01-29 16:18:40
济南日报报业集团原董事长孙元文被查

济南日报报业集团原董事长孙元文被查

界面新闻
2026-02-02 10:08:40
为什么大多数人会选择封阳台?这6个痛点问题,就是真实答案

为什么大多数人会选择封阳台?这6个痛点问题,就是真实答案

装修秀
2026-02-01 10:40:03
2026-02-02 13:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
12098文章数 176369关注度
往期回顾 全部

科技要闻

元宝发10亿红包,阿里千问:我跟30亿

头条要闻

美伊局势脆弱且微妙 两国谈判"最大症结"披露

头条要闻

美伊局势脆弱且微妙 两国谈判"最大症结"披露

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

手机
健康
游戏
家居
军事航空

手机要闻

华为开门红,一月排名出炉,苹果排名第二

耳石症分类型,症状大不同

不用MOD也有性感服装!过去美好时代引发热议

家居要闻

现代几何彩拼 智焕童梦居

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版