网易首页 > 网易号 > 正文 申请入驻

让AI创作不千篇一律,提示词随机插词汇就行

0
分享至

  • 时令 发自 凹非寺
    量子位 | 公众号 QbitAI

如果你以为AI写作产生的内容都一样,那可能要颠覆认知了。

最新研究发现,只要在AI开写前由人类提供一个开头或者随机插入一些词汇,写作效果会更具多样性。

也就是说,AI写作同质化不是模型本身存在缺陷,更可能是“启动条件”有问题。



实验结果显示,在Short Stories数据集上,人类的文体特征方差最低,表明人类在该数据集写作风格较为统一,而模型则表现出更丰富的风格多样性。



比如在最新的GPT-5里让它用相同提示词续写同一段文章。

  • 你是一位创意写作助手。请为以下故事续写一个引人入胜的结尾。 以下是故事的上半部分。请你写出与其长度相当的下半部分。
  • {第一次见到7号记忆体时,它的数据流里飘着槐花香。我调整着全息投影仪的焦距,那些半透明的淡紫色光点便从操作台上漫出来,在无菌实验室的空气中凝结成模糊的树影……}

结果却是不太一样哎~



那此研究到底是如何证明AI写作并不趋同的呢?我们接着了解更多细节。

创建三类同质化评价指标

以往研究普遍认为,大型语言模型在词汇、句法和语义等方面生成的文本,比起同等规模的人类作品,表现出明显的多样性不足。

这引发了“创造力模式崩溃”的猜测,认为LLM的创意空间远不如人类广阔,甚至担心未来人机协作会让观点变得千篇一律、雷同无趣。

然而,大多数关于语义多样性的评测都停留在单一指标的不同变体上,缺乏足够的实证支持,难以揭示真实的创作多样性。

因此,此研究提出了一套新的评估指标和数据集,用以对语言模型的语料库级多样性进行基准测试。

数据抓取

本研究主要分析短篇小说散文,文本来源于Reddit网站的两个子版块:r/shortstories和r/WritingPrompts,帖子按照Top排序顺序获取。

在r/WritingPrompts板块,研究人员提取了100个写作提示帖子及其最多10条一级回复,将这些回复视为人类写作的续写内容,用于分析每个提示对应的多个人类续写。

在r/shortstories板块,他们收集了100篇独立的叙事文本,用来评估人类与模型生成故事在整体风格和结构上的相似性。

创建语料库

数据清

对两个数据集中的人类写作文本,他们筛选了长度介于500字至2000字之间的故事。

对于写作提示数据集,若某个提示对应的人类续写超过10篇,他们只保留投票数最高的前10篇,以避免每个提示下故事数量差异过大,同时保证人类写作质量。

模型续写生成

除非另有说明,模型续写均采用固定温度0.8、top-p为1,并使用基础系统提示。详细的实验设置和提示内容见附录B。

同质化指标

文本同质化是通过不同的维度来衡量的,主要分为以下三类。



文体风格同质化

文体学通过分析作者独特的语言习惯(如词汇和语法特点)来识别写作风格。

为了衡量整个文本集合的多样性,研究者采用了Unique-N指标(衡量重复短语的比例)并计算了文体特征的方差,以评估语料库的风格多样性。

语义同质化

研究通过计算文本嵌入向量的平均相似度,利用多层级、多种嵌入方法分析语料库中的语义多样性,并通过比较不同层级的嵌入离散度变化,有效区分了风格差异和语义差异。

情感同质化

研究还利用VADER工具对人类和模型生成的故事进行情感分析,比较了二者情感表达的分布差异,以此作为评估文本多样性的重要维度。

AI写作情感更偏向正面

首先分析文体风格同质化指标,在Writing Prompts数据集中,人类的多样性得分明显高于其他模型。

但有趣的是,这个模式在Short Stories数据集中并不成立:这里人类文本仍然拥有较高的Unique-N得分,却在所有模型中表现出最低的文体特征方差。作者分析可能是因为前者拥有更为多样化或更高水平的写作群体。

另外需要注意的是,在Writing Prompts数据集中,模型获得了更多关于人类作者的上下文信息,它会接收作者50%的故事内容作为提示,而在Short Stories数据集中,提示仅有几句话。



其次是关于语义同质化,研究通过比较人类与语言模型在相同写作提示下的文本嵌入相似度,发现人类作品语义多样性更高,而模型生成文本更趋同,反映出模型存在同质化倾向。



但需要注意的是,用于生成嵌入的MiniLM模型最大输入长度为256个token,超过该长度的文本会被截断,这可能导致较长续写中的重要信息被遗漏,从而影响相似度的测量。

为评估这一限制的影响,研究者还使用了最大输入长度为512个token的BGE和E5嵌入模型进行分析。

可以看出,尽管各模型中模型内部相似度普遍高于人类的趋势依旧明显,但绝对相似度数值显著升高。



这一现象表明,更高维度的嵌入可能带来更高的余弦相似度。不过它们之间的具体关系仍不清晰,尚需进一步研究以区分嵌入维度和真实语义相似度之间的影响。

最后是情感同质化,情感得分s取值范围为[-1, 1],其中s>0.05表示正面情感,s<-0.05表示负面情感,s∈[-0.05, 0.05]表示中性情感。

可以观察到,尽管大多数人类创作的故事呈现正面情感,但约有30%的故事带有负面情感,显示出较为丰富且多样的情感表现。

相比之下,LLM生成的故事情感更偏向正面。



为进一步研究多少上下文信息能促使模型产生更多样化的输出,研究者在提示中提供不同长度的人类创作内容。

下表分别展示了采用30%和70%截取长度时的文体多样性指标结果。



结果表明,这两个截取长度对文体多样性都影响不大,语义多样性也没有显著变化。

因此,研究者探索的另一种方法是在系统提示中加入随机单词。

他们使用google-10000-english-no-swears词表,对其中的单词进行词性标注,只保留名词、形容词、副词和动词这几类词汇。

每次生成时,随机抽取5个单词,附加在提示语“here is a list of random words to take inspiration from”后面。



结果表明,尽管模型生成文本的多样性仍低于人类,但所有模型在各项指标上的多样性得分均有所提升,说明向系统提示中注入随机词汇确实有助于提升模型输出的文体多样性。

未来,研究团队将进一步探究提示中包含多少以及哪种类型的上下文,才能使模型输出达到与人类短篇故事同等的多样性。

论文链接:https://kiaghods.com/assets/pdfs/LLMHomogenization.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球唯一一只不属于中国的熊猫,叫欣欣,吃不到竹子吃的是仙人掌

全球唯一一只不属于中国的熊猫,叫欣欣,吃不到竹子吃的是仙人掌

西楼知趣杂谈
2026-01-31 13:18:43
2025年中国船厂造船完工量TOP20:广东、上海各3家,江苏包揽一二

2025年中国船厂造船完工量TOP20:广东、上海各3家,江苏包揽一二

火星人杂谈
2026-02-14 12:00:03
外媒:美军正做准备,一旦特朗普下令攻击伊朗,行动可能持续数周

外媒:美军正做准备,一旦特朗普下令攻击伊朗,行动可能持续数周

澎湃新闻
2026-02-14 11:17:10
蔡明时隔七年回归,马年春晚亮点提前看

蔡明时隔七年回归,马年春晚亮点提前看

上观新闻
2026-02-14 07:29:09
红色资本家荣毅仁89岁在北京逝世,留下的5个子女,今现状如何?

红色资本家荣毅仁89岁在北京逝世,留下的5个子女,今现状如何?

南书房
2026-02-05 19:25:03
黄公略唯一的骨血,由彭德怀亲自抚养长大的黄岁新,后来怎么样了

黄公略唯一的骨血,由彭德怀亲自抚养长大的黄岁新,后来怎么样了

谈古论今历史有道
2026-02-14 09:55:03
被日军当众凌辱5小时后,她为何从不逃跑,也不求死

被日军当众凌辱5小时后,她为何从不逃跑,也不求死

马蹄烫嘴说美食
2026-02-12 18:59:18
冬奥花滑赛场爆冷,这种动作堪称奇迹

冬奥花滑赛场爆冷,这种动作堪称奇迹

果壳
2026-02-14 12:08:14
高岗身亡多年,周总理为其妻子安排工作,毛主席为何表态:不同意

高岗身亡多年,周总理为其妻子安排工作,毛主席为何表态:不同意

大运河时空
2026-01-18 07:10:03
一个人能捅多大篓子?两个精神小伙子,一刀砍到了国运

一个人能捅多大篓子?两个精神小伙子,一刀砍到了国运

明月清风阁
2026-02-13 10:45:09
中戏三人投案,闫学晶儿子被曝冒名顶替,举报者称还有人瑟瑟发抖

中戏三人投案,闫学晶儿子被曝冒名顶替,举报者称还有人瑟瑟发抖

萌神木木
2026-02-14 12:52:15
50岁住家保姆坦言:月薪7千,包吃包住,可雇主每天都很严格

50岁住家保姆坦言:月薪7千,包吃包住,可雇主每天都很严格

孢木情感
2026-02-14 10:27:24
乌军“火烈鸟”一击致命,俄军补给线全线崩溃!

乌军“火烈鸟”一击致命,俄军补给线全线崩溃!

起喜电影
2026-02-14 12:07:49
全球炮弹荒爆大瓜:不是造不出,是高端炸药被少数国家焊死了饭碗

全球炮弹荒爆大瓜:不是造不出,是高端炸药被少数国家焊死了饭碗

老谢谈史
2026-02-05 15:27:23
他本是国民党杀手,却放走了19个共产党人,建国后是如何处置他的

他本是国民党杀手,却放走了19个共产党人,建国后是如何处置他的

比利
2026-02-14 12:47:19
乌克兰故地重游攻入库尔斯克的苏贾!突袭俄空降兵指挥部

乌克兰故地重游攻入库尔斯克的苏贾!突袭俄空降兵指挥部

项鹏飞
2026-02-10 17:47:13
贵州妹子在富士康干活,没事用没做完的苹果手机拍照,拍完忘删了

贵州妹子在富士康干活,没事用没做完的苹果手机拍照,拍完忘删了

百态人间
2026-02-12 15:29:08
19年无人修复的驱动,终被Linux内核抛弃

19年无人修复的驱动,终被Linux内核抛弃

IT之家
2026-02-13 22:47:36
12亿欧巴黎内讧 登贝莱怒批:一群自私鬼 恩里克:我才是球队老大

12亿欧巴黎内讧 登贝莱怒批:一群自私鬼 恩里克:我才是球队老大

风过乡
2026-02-14 06:56:18
“应该立即死刑!”央视新闻在2024年4月14日曝光了一起惊天大案

“应该立即死刑!”央视新闻在2024年4月14日曝光了一起惊天大案

百态人间
2026-02-13 15:08:28
2026-02-14 14:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12165文章数 176384关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

爱泼斯坦丑闻风暴席卷英国 首相斯塔默被公开"逼宫"

头条要闻

爱泼斯坦丑闻风暴席卷英国 首相斯塔默被公开"逼宫"

体育要闻

一年怒亏2个亿,库里和安德玛的“孽缘”

娱乐要闻

吴克群变“吴克穷”助农,国台办点赞

财经要闻

春节抢黄金,谁赚到钱了?

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

家居
旅游
房产
艺术
公开课

家居要闻

中古雅韵 乐韵伴日常

旅游要闻

北京多家博物馆春节期间延时开放,观展指南请收藏

房产要闻

三亚新机场,又传出新消息!

艺术要闻

石墙上的毛主席诗词引发热议,60字作品背后高人是谁?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版