网易首页 > 网易号 > 正文 申请入驻

我把我的文章手搓成了Token炸弹,发现这样居然还能防AI洗稿。

0
分享至

大数据文摘受权转载自数字生命卡兹克

作者:卡兹克、芝兰山

今天给大家看个新东西,聊一聊我在怎么防AI洗稿。。。

对于我这种内容创作者来说,最怕的洗稿方式是什么?

不是全抄,全抄的话很好举报,而是一帮AI抄袭缝合怪。

经常会有人,复制我文章里的某一段话,然后用AI重写后,贴到他们的文章里去。

主要,这玩意儿还很难举报,因为根本没法管。

我曾经想过用一些手段,来防止洗稿,但是没什么用。

直到之前,我往回翻的时候,看到了一篇帖子。

这是OpenAI的创始成员Karpathy之前发的推文。

这个帖子的大概意思就是,它在一个emoji藏了很多信息,而这些信息,是你看不见的。

然后直接把DeepSeek R1干懵逼了10分钟。

你可能会非常好奇,往emoji里面藏信息,跟洗稿有啥关系。

最开始的时候我也没想到有啥关系,直到我把尝试了一下,在一篇文章中中用这种方式埋了Token,看到这篇文章在公众号后台的正文字数从2000字变成了将近3w字。

我悟了。

于是我几天前写了一篇,在这篇文章里,就埋下了这个菜单,昨天关于Manus的那篇也埋了。

你们可以去试一试,把这篇文章复制到word里。(有死机风险,谨慎)

但是如果你们看完全篇的话,会发现,文章满打满算也就2500字。

而这多出来的1w多字,就是我用Karpathy说的方法,往文章里埋的彩蛋。

你我都不会看见,但是字数统计会发现。

而现在一般的国产AI产品里,会有一个很有趣的设定。

就是token限制。

如果你把这篇文章,发给一些改写工作流的智能体,你就会发现。

而发给一些AI Chat呢。

Gemini也自己截断了。

GPT 4o也懵逼了。

这个时候,其实就用一种非常原始、非常粗暴、非常智障的方式,能限制洗稿,因为根本输不进去。

直接变成Token炸弹。

当然,坦率的讲,对于一些推理模型来说,防不住,这个我是真没招。

而对于做RAG和知识库来说,却并没有任何影响,可以正常问答。

所以也可以避免,误伤友军。

这里,我也给大家举个通俗易通的例子,来讲下这玩意原理是个啥,以及怎么做我文章里的这种Token炸弹。

我们全世界的人在系统上,能看到统一文字,主要得益于Unicode,你可以理解为这是一本全球大字典,把地球上所有国家、所有民族用到的文字、符号和表情,统统都收进来了。

然后每个字符,都给它安排了一个固定的、不会重复的编号。

比如:字母「A」的编号是U+0041,汉字「你」的编号是U+4F60,表情符号「」的编号是U+1F602。

对,你天天用的各种emoji其实也是Unicode。

而在Unicode中呢,有一个特殊的玩意,叫变体选择符(Variation Selector, VS)。

它能在一个字符后面加一些特殊的信息,让这个字符改变样式或者外观。

比如这个心心。

(❤ + U+FE0F)→ 彩色心形❤️

(❤ + U+FE0E)→ 黑白文本心形❤

后面加的,就是变体选择符。

你可以把文字当成一张纸,变体选择符就像一张透明胶带,上面写了字,但是你用肉眼看不见。

于是,我们就可以,在某个看似普通的文字或表情后面,贴上很多这样的透明胶带。而且理论上能一直往后面贴,想贴多少就贴多少。

在视觉上,你还是只看到一个emoji或一小段文字,但对系统而言,后面其实跟着一大串可以被解析的隐藏字符。

一旦系统或者AI要读取或处理这段文字,就会发现:

“我擦,怎么藏了这么多东西?”

一下子就能把它的token数撑爆。

结果就是,表面看起来没增加文字,但系统的字数统计直接飙升。

而我在Claude3.7那边文章中,把隐藏信息,埋在了Claude 3.7 Son︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊net这个单词中的第一个“n︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊”里面。

你可以直接把这个“n︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊”,复制到OpenAI的那个测有多少token的网站里,来看看这个n藏了多少token。

网址在此:https://platform.openai.com/tokenizer

这就是一个,非常隐蔽的token炸弹。

我再给大家演示下怎么找到这些隐藏信息,也就是解码的方法。

特别简单。

打开这个小工具:

https://emoji-encoder.vercel.app/?mode=decode

把文章里我埋彩蛋的“n︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊”直接复制到第一个网站,点击“Decode”按钮,即可进行解码。

你可以发现,其实我往这个单词里面,藏了《双城记》英文版的一整章。。。

说完了解码,那如何编码呢?也就是如何把隐藏信息灌进字母里。

还是在这个网站操作。

把按钮切换到Encode,把想藏的信息输入进上面的文本框,然后在下面任意选一个表情or字母即可。

之后你就可以复制最下面文本框里的表情or字符,用微信发给朋友或者存在word文档等平台了。

而且,因为Unicode的特性,实测下来,隐藏信息并不会因为跨平台而被格式化掉

你还是可以把编码玩的字母,发给微信的朋友,就能给微信页面干死机。或者会显示输入文字过长,无法发送。

我大概测了下,这个极限值是1.5万个token左右,超过就在微信里面发不出去了。

爬虫也一样。

我用Trae写了一段爬虫,把那篇文章给爬下来了。

稍微一运行这段代码,在下面的终端界面里,只要是我埋的token炸弹的位置,全部一片空白。

如果用windows系统导出txt文件,就会全部是乱码。

如果是Mac打开这个txt文件的话,显示的内容就像右图,倒也基本正常。

但是其实这个token炸单,还是保留的。

真的非常非常好玩。

你甚至还能用这种暗号躲过信息审核员,把它放到网站上,传输信息。

甚至还能把它,当数字水印用。

你可以在发给不同人的文档里,给每个字符都加一点不一样的变体选择符。当文档泄露出去时,若文档里还有这个隐形水印,你就能非常轻松的追踪到是哪一个人的版本被泄露了。

不过我最后的用处,是用非常幼稚和暴力的方法,用它来防洗稿。

我知道,有人肯定会说这招太野路子,或者对推理模型根本没用,或者在更高端的文本抽取技术面前还是挡不住。

但我只是一个想保护自己原创不被AI无脑洗稿的普通写作者,用小成本就能干扰到绝大多数以GPT 4o、Gemini 2.0级别做段落拼贴的自动化洗稿党,那其实已经足够了。

这方法虽然粗暴,却比啥都不做要强。

毕竟创作者的伤痛,就在于辛辛苦苦打磨的心血成果,被一些人,用一些手段,分分钟变成别人的生意,你连哭诉都找不到门路。

就这样。

如若这个小东西,也能帮到你。

那对我来说就值了。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒级计费,平均节省开支30%以上!

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马年春晚前,央媒高调官宣57岁王菲喜讯,观众有福

马年春晚前,央媒高调官宣57岁王菲喜讯,观众有福

草莓信箱
2026-02-15 22:38:51
伊能静春晚彩排状态差,脸僵馒化医美明显,曾自曝一年花百万保养

伊能静春晚彩排状态差,脸僵馒化医美明显,曾自曝一年花百万保养

萌神木木
2026-02-15 12:17:33
42岁的王濛再破天花板!退役11年,再次让李琰和整个冰坛集体沉默

42岁的王濛再破天花板!退役11年,再次让李琰和整个冰坛集体沉默

削桐作琴
2026-02-03 15:40:04
莫斯科遭无人机袭击,泽连斯基与卢比奥对话揭示乌美严重对立

莫斯科遭无人机袭击,泽连斯基与卢比奥对话揭示乌美严重对立

近距离
2026-02-16 09:30:21
终于轮到日本抗议:明明想驳斥中国外长,全文却连职务都不敢提

终于轮到日本抗议:明明想驳斥中国外长,全文却连职务都不敢提

娱乐的宅急便
2026-02-16 12:03:51
韩媒:安洗莹率领韩国队获尤伯杯头号种子 首夺亚洲团体冠军增底气

韩媒:安洗莹率领韩国队获尤伯杯头号种子 首夺亚洲团体冠军增底气

劲爆体坛
2026-02-16 06:42:05
在河北发现了《甲方乙方》的取景地

在河北发现了《甲方乙方》的取景地

阿废冷眼观察所
2026-02-09 18:24:46
我提交辞呈,总裁夫人批,四天后董事长巡查:这是集团重要投资人

我提交辞呈,总裁夫人批,四天后董事长巡查:这是集团重要投资人

匹夫来搞笑
2026-02-16 07:39:51
申花除蒋圣龙和朱辰杰之外,终于迎来靠谱中卫挑大梁,不是金顺凯

申花除蒋圣龙和朱辰杰之外,终于迎来靠谱中卫挑大梁,不是金顺凯

张丽说足球
2026-02-16 11:07:00
冠军的心!霍姆格伦谈全明星戒指:很酷,但不如“我们”的那个

冠军的心!霍姆格伦谈全明星戒指:很酷,但不如“我们”的那个

大眼瞄世界
2026-02-16 10:42:10
张馨予自驾新疆旅游!何捷为老婆拍照要沦陷了,拍的比摄影师还美

张馨予自驾新疆旅游!何捷为老婆拍照要沦陷了,拍的比摄影师还美

乐悠悠娱乐
2026-02-14 12:12:32
后续!四川失踪男童案细节披露:这几个方面太不对劲

后续!四川失踪男童案细节披露:这几个方面太不对劲

奇思妙想草叶君
2026-02-15 23:23:45
14亿人“生死”交给外资?若自来水和食盐被控制,后果有多严重?

14亿人“生死”交给外资?若自来水和食盐被控制,后果有多严重?

云景侃记
2026-02-04 22:34:38
婚姻里的“哄”,是最高级的浪漫

婚姻里的“哄”,是最高级的浪漫

青苹果sht
2025-12-27 05:12:18
玥儿最新露面照,穿黑衣缅怀妈妈表情哀伤严肃,原来她什么都懂

玥儿最新露面照,穿黑衣缅怀妈妈表情哀伤严肃,原来她什么都懂

萧狡科普解说
2026-02-15 08:03:57
你见过的最沉得住气的人是怎样?网‬友:五分钟连超10万人的奇迹

你见过的最沉得住气的人是怎样?网‬友:五分钟连超10万人的奇迹

夜深爱杂谈
2026-01-04 23:05:06
马科斯喊停已经迟了!即日起十几名菲律宾参议员禁止入境

马科斯喊停已经迟了!即日起十几名菲律宾参议员禁止入境

二大爷观世界
2026-02-15 23:13:53
劳务派遣比例要压到10%以内!网友:派遣只是名字,要完善劳动法

劳务派遣比例要压到10%以内!网友:派遣只是名字,要完善劳动法

火山詩话
2026-02-13 11:36:07
有关薄一波的十个冷知识

有关薄一波的十个冷知识

深度报
2026-02-13 22:45:30
男篮锋线8选4!两王牌锁定,21岁新星或首次入围,郭士强面临抉择

男篮锋线8选4!两王牌锁定,21岁新星或首次入围,郭士强面临抉择

老叶评球
2026-02-16 09:15:53
2026-02-16 13:44:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6822文章数 94529关注度
往期回顾 全部

科技要闻

OpenAI拿下OpenClaw之父 承诺开源绝不动摇

头条要闻

牛弹琴:被王毅痛斥后 日本急了

头条要闻

牛弹琴:被王毅痛斥后 日本急了

体育要闻

遭针对?谷爱凌炮轰国际雪联安排

娱乐要闻

好甜蜜!郭富城随方媛回安徽过年

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

游戏
艺术
旅游
亲子
军事航空

黑神话冯骥又上央视了!这次与超强AI有关

艺术要闻

真没想到,毛主席这14个大草字,问了上百人都无人识,你认得吗?

旅游要闻

引导旅游市场规范经营 海南以信用监管护航春节放心游

亲子要闻

科普|孩子支气管哮喘急性发作,如何护理急救

军事要闻

慕安会美国角色逆转 中国议题"打满全场"

无障碍浏览 进入关怀版