前言
![]()
AI圈又出新鲜事——OpenAI创始人奥特曼亲自下场,官宣了ChatGPT的一项“重要更新”。
这次更新没有升级核心算法,也没有解锁新功能,只是解决了一个看似微不足道的问题:ChatGPT终于能听从指令,不再滥用破折号了。
一个普通的标点符号,为何能让科技大佬亲自站台,还引发全网热议?答案很简单:在此之前,ChatGPT对破折号的“痴迷”已经到了让用户忍无可忍的地步。
这个小小的标点,不仅成了识别AI生成内容的“明牌”,更让无数用户在自定义指令中反复恳求、甚至威胁,却依然无法改变AI我行我素的态度。
如今官方宣称问题已修复,但颇具黑色幽默的是,有网友测试时刚说完“别用破折号”,ChatGPT就在“知道了”后面明晃晃加了一个,让人哭笑不得。
这个看似搞笑的标点风波背后,藏着AI写作的深层逻辑,也牵扯出大模型训练的诸多秘密。
破折号成“AI水印”,用户吐槽声浪不断
![]()
ChatGPT对破折号的偏爱,早已不是秘密,而是困扰无数用户的“老大难”问题。
在OpenAI的官方论坛上,充斥着大量吐槽帖子。有人抱怨,无论在自定义指令中如何强调“禁止使用破折号”,AI依然会顽固地在回复中插入这个标点,还附带不必要的缩进。
这种标志性的写作习惯,让ChatGPT的输出“AI味”十足,几乎成了一眼就能看穿的“数字水印”。
对于需要用AI辅助写作、却不想被识别的用户来说,这个问题尤为棘手。为了“治好”AI的破折号执念,用户们可谓绞尽脑汁。
有人尝试用极其严厉的语气下达指令,有人使用戏剧性的情感提示词(EmotionalPrompt),甚至有人专门编写复杂的规则模板,但最终收效甚微。
更有意思的是,破折号只是AI写作“怪癖”的冰山一角。在Threads的相关讨论中,网友们总结了一系列AI专属的写作标记。
比如过度依赖列表和子标题,仿佛不分点论述就无法组织语言;频繁使用“不仅是X,也是Y”“一方面…另一方面…”这类重复句式;还有动辄出现的冗长解释和不必要的铺垫。
这些特征组合在一起,让AI生成的文本辨识度拉满。不过也有不同声音认为,人们对“AI味”的抵制有些过度,甚至出现了非理性憎恨AI相关事物的趋势。
但不可否认,一手造成破折号“污名化”的,还是ChatGPT自身——如果不是它不分场景地滥用,这个标点符号也不会成为众矢之的。
三大猜想被推翻,AI偏爱破折号另有隐情
![]()
一个小小的破折号,为何能让智能程度极高的大模型如此“执着”?GitHub软件工程师SeanGoedecke专门写了一篇博客,深入研究了这个问题。
他首先提出了三个最直观的猜想,但很快就被自己一一否定。
第一个猜想是“破折号本身常见”。但Sean认为,如果破折号在日常语言中广泛使用,就不会成为引人注意的“AI象征”,这个猜想显然站不住脚。
第二个猜想是“破折号功能丰富”。破折号确实能起到解释说明、补充强调、话题转折等多重作用,但逗号、冒号、括号等标点也具备类似功能,AI没有理由只偏爱这一种。
第三个猜想是“AI追求简洁性”。可事实上,逗号比破折号更简洁,而且想要表达简洁,减少冗余内容比换用标点符号效果更明显,这个理由也不成立。
排除了这些表层原因后,Sean把目光投向了大模型训练的关键环节——RLHF(基于人类反馈的强化学习)。
他推测,AI的语言习惯可能来自RLHF信息提供者的表达偏好。要知道,RLHF标注工作通常在肯尼亚、尼日利亚等低人力成本、高英语水平的非洲国家进行。
比如“delve”这类在非洲英语中高频使用的词汇,AI也会反复提及,这似乎能印证“模仿标注者习惯”的猜想。
但深入研究后发现,非洲英语中破折号的使用频率反而低于平均水平,甚至不到普通英语使用频率的十分之一,这个猜想也只能无奈推翻。
三个主流猜想都被否定,AI偏爱破折号的原因,变得更加扑朔迷离。
GPT-4突变关键节点,百年古书成“幕后黑手”
就在研究陷入僵局时,Sean发现了一个关键线索:GPT并非从一开始就喜欢破折号,而是从GPT-4开始,破折号的使用频率比之前暴涨了十倍。
这意味着,问题的根源大概率出在GPT-3.5到GPT-4的迭代期间。那么,这段时间里到底发生了什么?
答案指向了大模型训练的核心痛点——“数据荒”。随着AI技术快速发展,高质量的训练数据变得越来越稀缺,研发团队开始千方百计地寻找新的数据源。
其中一个重要手段,就是扫描19世纪末到20世纪初的经典纸质书籍,将这些古籍内容数字化后喂给AI,以此丰富训练数据的多样性。
巧合的是,Sean找到了一项关于英语标点符号使用频率的研究,结果显示,19世纪末到20世纪初,正是破折号在英语写作中的使用高峰。
那个年代的作家们,格外偏爱用破折号来串联语句、表达情绪,比如1851年美国小说家赫尔曼的经典著作《白鲸记》(Moby-Dick)中,就足足出现了1728个破折号。
大量这类古籍被纳入训练数据后,AI自然会模仿其中的语言风格,将破折号的使用习惯内化为自己的写作模式。
Sean认为,尽管还有一些细节尚未完全解释清楚,但19世纪经典出版物的大规模引入,有很大概率就是ChatGPT痴迷破折号的“幕后黑手”。
这个发现也让网友们恍然大悟:原来AI的“标点执念”,竟是来自百年前的文学潮流。
结语
![]()
一个破折号引发的风波,看似是AI圈的小插曲,实则暴露了大模型训练的诸多细节。
从用户的集体吐槽到工程师的深度探究,从RLHF标注习惯的猜想to百年古籍的溯源,这个小小的标点符号,串联起了AI技术、语言习惯与历史文化的多重关联。
ChatGPT此次修复破折号滥用问题,不仅是回应了用户的核心诉求,更意味着大模型的优化正在从核心功能向细节体验延伸。
毕竟,对于AI来说,不仅要“聪明”,还要“懂用户”,而尊重用户的标点使用习惯,正是“懂用户”的重要体现。
未来,随着技术的不断迭代,AI的写作风格或许会更加自然、多元,那些标志性的“AI怪癖”也可能逐渐消失。
但这场关于破折号的讨论,会成为观察AI发展的一个有趣切片——它提醒我们,AI的每一个小习惯背后,都可能藏着不为人知的训练逻辑
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.