网易首页 > 网易号 > 正文 申请入驻

我用7.5万条聊天记录,训练了一个不像AI的AI

0
分享至

frontier大模型擅长决定说什么,却不擅长像"你"那样说。

我用Claude和GPT-4o写了几个月东西。系统提示写得很细:第一人称,长短句交错,不用LinkedIn黑话,先讲具体事。每次返回的草稿结构都对,但读起来像个聪明实习生,花了一下午研究我的文风后交的作业。


举个例子。让模型模仿我的语气写"自建硬件"这件事:

模型输出:"By maintaining complete control over the hardware infrastructure, I eliminate the need to navigate third-party terms of service entirely."

我实际会写:"The data lives on hardware I control. There's no terms of service to read because there's no service."

同一个意思。一个像我,一个像模型在执行"要写得像我"的指令。提示工程的天花板就在这里——所以我造了个突破天花板的东西。

市面上大多数"个人AI"项目把三个活塞进一个模型:决定写什么、确保事实准确、模仿作者语气。这是三种能力,需要三种训练信号。硬塞在一起,结果就是互相妥协。

我的架构把它们拆开:

【前沿模型生成内容】→【微调3B模型改写成我的语气】→输出

第一层用前沿模型(Claude Opus、Llama 70B,看任务选)。它接收我的工作上下文:git提交记录、知识图谱、日历事件。负责推理、结构、事实 grounding。它擅长这个。

第二层是个Qwen 2.5 3B模型,用我75,329条真实写作样本微调。它不推理,不需要聪明,只负责改写——把合格但平庸的文字,变成我的语气。

选3B参数是刻意的。我测过Phi-3 Mini和Llama 3.2 3B,Qwen胜出基于三点:量化后约2GB,消费级硬件轻松跑;风格迁移不需要推理能力,3B容量足够;参数空间小,语气信号不会被通用能力淹没。

训练数据来自我攒了几年的个人数据仓库。从12个平台抓取了2004年以来我写的所有文字。

这个语料库的有趣之处不在体量,在时间跨度。你能看着一种语气在二十年里成形。2005年的邮件不像2024年的iMessage,但共享结构模式:压缩、直接、偏好具体而非抽象。

提取脚本跑在家用服务器的PostgreSQL上。每个来源有独立表、不同schema,脚本要处理12种查询模式。数据清洗时我砍掉了一切可能暴露他人的内容——只留我的文字,只训练我的声音。

微调用的框架是Hugging Face的trl,训练配置很保守:3个epoch,学习率2e-5,LoRA rank 64。目标不是让模型变聪明,是让它对特定文本分布过拟合。过拟合在这里是feature,不是bug。

推理时第一层模型输出先过第二层改写。延迟约200毫秒在M1 Mac上——可接受。如果第一层输出已经够好,可以跳过第二层直接输出,但实测很少发生。

这个架构的副作用:我可以换第一层模型而不影响语气。Claude太贵了换Llama,GPT-4o太慢了换本地模型,语气层保持不变。两个组件独立迭代。

最意外的发现是训练数据里的时间分层。模型不仅学到了我的语气,还学到了语气演变。让它写技术文档,它输出2020年代风格;让它写个人随笔,偶尔闪回2000年代的句式节奏。这不是我设计的,是数据里长出来的。

有人问我这是不是"数字克隆"。不是。克隆需要持续同步新数据,需要推理能力,需要知道我现在在想什么。这个系统只是风格滤镜,把任何人的文字漂成我的颜色。它不知道我今天吃了什么,只是如果我告诉它,它会用我2005年写邮件的方式或2024年发消息的方式说出来。

部署后我观察到一个现象:第一层模型越强大,第二层越重要。Opus生成的草稿结构完美、事实准确,但"AI味"最重——它太擅长模仿"好写作"的通用模板了。3B改写器的工作就是拆掉这些模板,换回我的不规则节奏。

量化后的模型在iPhone上也能跑。我试过一次,不是为实用,是为验证边界。2GB内存占用,推理速度 usable。这意味着理论上可以做成输入法插件,实时改写。还没做,因为不确定这是否是我想要的交互方式。

整个项目的成本:电费。数据是自己攒的,训练用M1 Ultra跑了约12小时,推理本地完成。对比调用API写一年内容的费用,硬件成本几个月回本。但这不是重点——重点是终于有东西能写出不像"AI生成"的文字,而我不需要每次都手动改。

最后说一个限制。这个系统只解决"怎么说",不解决"说什么"。如果第一层模型推理错了,第二层会自信地用我的语气把错误说出来。事实核查仍然是人的工作,至少目前如此。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
果然不出所料!特朗普访华生变,中方要求遭美方拒绝

果然不出所料!特朗普访华生变,中方要求遭美方拒绝

阿天爱旅行
2026-05-09 17:51:03
砍39分+8记三分!联盟又一超级外援诞生,杜锋终于盼来季后赛救星

砍39分+8记三分!联盟又一超级外援诞生,杜锋终于盼来季后赛救星

老叶评球
2026-05-09 23:33:42
第一名生肖鸡,2026年立夏过后,5件大囍事来临门!

第一名生肖鸡,2026年立夏过后,5件大囍事来临门!

阿龙美食记
2026-05-09 18:56:03
广东绝杀北京,4人功不可没,杜锋赛后采访,再一次惹争议?

广东绝杀北京,4人功不可没,杜锋赛后采访,再一次惹争议?

飞克体育
2026-05-10 01:05:07
低智商犯罪:熟脸真多,认出了王传君和雷佳音,却没认出北电院长

低智商犯罪:熟脸真多,认出了王传君和雷佳音,却没认出北电院长

悦君兮君不知
2026-05-08 20:39:55
老杜案将迎巨变?考夫曼临阵脱逃,退出辩护团队,莎拉要最后一搏

老杜案将迎巨变?考夫曼临阵脱逃,退出辩护团队,莎拉要最后一搏

顾蔡卫
2026-05-09 09:10:14
广州一女子为方便孩子上学,每月10万元长租酒店房间,退租后被索要3300元磨损费,酒店:有专业工程人员定价,正处理此事

广州一女子为方便孩子上学,每月10万元长租酒店房间,退租后被索要3300元磨损费,酒店:有专业工程人员定价,正处理此事

大风新闻
2026-05-08 20:51:07
20公司5月9日周末发布重大利好,并购股权公司3家 业绩高增公司3家

20公司5月9日周末发布重大利好,并购股权公司3家 业绩高增公司3家

股市皆大事
2026-05-09 10:43:26
苏超:随着比分定格3-1,无锡队连续3轮不败,泰州队无缘2连胜

苏超:随着比分定格3-1,无锡队连续3轮不败,泰州队无缘2连胜

俯身冲顶
2026-05-09 21:37:00
彻底打脸!皇马球迷狂喷安切洛蒂下课,如今才懂他有多神

彻底打脸!皇马球迷狂喷安切洛蒂下课,如今才懂他有多神

奶盖熊本熊
2026-05-09 04:50:02
为190元榴莲“仅退款”千里讨公道背后:不服气的商家和因反网购薅羊毛而成立的公益反诈互助会

为190元榴莲“仅退款”千里讨公道背后:不服气的商家和因反网购薅羊毛而成立的公益反诈互助会

红星新闻
2026-05-09 14:16:17
火箭报价凯尔特人布朗!乌度卡有合作基础,史蒂文斯启动交易评估

火箭报价凯尔特人布朗!乌度卡有合作基础,史蒂文斯启动交易评估

格斗社
2026-05-09 13:53:43
太硬核!媒体人评狼刺G3:强度超90年代经典战,近乎纯打架

太硬核!媒体人评狼刺G3:强度超90年代经典战,近乎纯打架

体育见习官
2026-05-09 13:11:14
前体操冠军吴柳芳再回应擦边风波:“把债还完了,我才能把体面重新捡起来”;谈及与管晨辰的争执,吴柳芳表示:“我不会去恨一个人”

前体操冠军吴柳芳再回应擦边风波:“把债还完了,我才能把体面重新捡起来”;谈及与管晨辰的争执,吴柳芳表示:“我不会去恨一个人”

扬子晚报
2026-05-07 07:43:31
21.99万起,从定价到平台,解析问道V9的“爆款”逻辑

21.99万起,从定价到平台,解析问道V9的“爆款”逻辑

极车制造
2026-04-28 22:01:11
梅西除了不在乎历史第一人!还非常客气地评估C罗!

梅西除了不在乎历史第一人!还非常客气地评估C罗!

历史第一人梅西
2026-05-08 23:06:17
小凑四叶从顶级偶像到隐退打工,改名回归后引爆全网

小凑四叶从顶级偶像到隐退打工,改名回归后引爆全网

吃瓜党二号头目
2026-05-09 10:09:02
湖南卫视停播背后:娱乐至死时代的一剂清醒针

湖南卫视停播背后:娱乐至死时代的一剂清醒针

乡野小珥
2026-05-09 01:27:52
“大波小姐”来袭!

“大波小姐”来袭!

文刀万
2026-05-04 08:14:29
全红婵拒绝浓妆却惊艳全网,昔日跳水小丫头气质大变美成牡丹

全红婵拒绝浓妆却惊艳全网,昔日跳水小丫头气质大变美成牡丹

可乐谈情感
2026-05-10 00:20:03
2026-05-10 02:12:49
全栈遛狗员
全栈遛狗员
白天跟需求对线,晚上在小区遛狗。
2454文章数 62关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

房产
家居
教育
数码
公开课

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

家居要闻

菁英人居 全能豪宅

教育要闻

天津女教师怼家长!完整录音曝光,老师很嚣张,饭碗恐不保了

数码要闻

有鸿蒙·更美的——全球首台鸿蒙智选美的智能空调上市

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版