我用7.5万条聊天记录，训练了一个不像AI的AI|推理|上下文

我用7.5万条聊天记录，训练了一个不像AI的AI

2026-05-09 13:31:25　来源: 全栈遛狗员

北京举报

分享至

frontier大模型擅长决定说什么，却不擅长像"你"那样说。

我用Claude和GPT-4o写了几个月东西。系统提示写得很细：第一人称，长短句交错，不用LinkedIn黑话，先讲具体事。每次返回的草稿结构都对，但读起来像个聪明实习生，花了一下午研究我的文风后交的作业。

举个例子。让模型模仿我的语气写"自建硬件"这件事：

模型输出："By maintaining complete control over the hardware infrastructure, I eliminate the need to navigate third-party terms of service entirely."

我实际会写："The data lives on hardware I control. There's no terms of service to read because there's no service."

同一个意思。一个像我，一个像模型在执行"要写得像我"的指令。提示工程的天花板就在这里——所以我造了个突破天花板的东西。

市面上大多数"个人AI"项目把三个活塞进一个模型：决定写什么、确保事实准确、模仿作者语气。这是三种能力，需要三种训练信号。硬塞在一起，结果就是互相妥协。

我的架构把它们拆开：

【前沿模型生成内容】→【微调3B模型改写成我的语气】→输出

第一层用前沿模型（Claude Opus、Llama 70B，看任务选）。它接收我的工作上下文：git提交记录、知识图谱、日历事件。负责推理、结构、事实 grounding。它擅长这个。

第二层是个Qwen 2.5 3B模型，用我75,329条真实写作样本微调。它不推理，不需要聪明，只负责改写——把合格但平庸的文字，变成我的语气。

选3B参数是刻意的。我测过Phi-3 Mini和Llama 3.2 3B，Qwen胜出基于三点：量化后约2GB，消费级硬件轻松跑；风格迁移不需要推理能力，3B容量足够；参数空间小，语气信号不会被通用能力淹没。

训练数据来自我攒了几年的个人数据仓库。从12个平台抓取了2004年以来我写的所有文字。

这个语料库的有趣之处不在体量，在时间跨度。你能看着一种语气在二十年里成形。2005年的邮件不像2024年的iMessage，但共享结构模式：压缩、直接、偏好具体而非抽象。

提取脚本跑在家用服务器的PostgreSQL上。每个来源有独立表、不同schema，脚本要处理12种查询模式。数据清洗时我砍掉了一切可能暴露他人的内容——只留我的文字，只训练我的声音。

微调用的框架是Hugging Face的trl，训练配置很保守：3个epoch，学习率2e-5，LoRA rank 64。目标不是让模型变聪明，是让它对特定文本分布过拟合。过拟合在这里是feature，不是bug。

推理时第一层模型输出先过第二层改写。延迟约200毫秒在M1 Mac上——可接受。如果第一层输出已经够好，可以跳过第二层直接输出，但实测很少发生。

这个架构的副作用：我可以换第一层模型而不影响语气。Claude太贵了换Llama，GPT-4o太慢了换本地模型，语气层保持不变。两个组件独立迭代。

最意外的发现是训练数据里的时间分层。模型不仅学到了我的语气，还学到了语气演变。让它写技术文档，它输出2020年代风格；让它写个人随笔，偶尔闪回2000年代的句式节奏。这不是我设计的，是数据里长出来的。

有人问我这是不是"数字克隆"。不是。克隆需要持续同步新数据，需要推理能力，需要知道我现在在想什么。这个系统只是风格滤镜，把任何人的文字漂成我的颜色。它不知道我今天吃了什么，只是如果我告诉它，它会用我2005年写邮件的方式或2024年发消息的方式说出来。

部署后我观察到一个现象：第一层模型越强大，第二层越重要。Opus生成的草稿结构完美、事实准确，但"AI味"最重——它太擅长模仿"好写作"的通用模板了。3B改写器的工作就是拆掉这些模板，换回我的不规则节奏。

量化后的模型在iPhone上也能跑。我试过一次，不是为实用，是为验证边界。2GB内存占用，推理速度 usable。这意味着理论上可以做成输入法插件，实时改写。还没做，因为不确定这是否是我想要的交互方式。

整个项目的成本：电费。数据是自己攒的，训练用M1 Ultra跑了约12小时，推理本地完成。对比调用API写一年内容的费用，硬件成本几个月回本。但这不是重点——重点是终于有东西能写出不像"AI生成"的文字，而我不需要每次都手动改。

最后说一个限制。这个系统只解决"怎么说"，不解决"说什么"。如果第一层模型推理错了，第二层会自信地用我的语气把错误说出来。事实核查仍然是人的工作，至少目前如此。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

我用7.5万条聊天记录，训练了一个不像AI的AI

美国政府强力下场 苹果英特尔达成代工协议

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

成立128年后，这支升班马首夺顶级联赛冠军

50岁赵薇脸颊凹陷沧桑得认不出！

多地号召，公职人员带头缴纳物业费

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

低价甩卖！海口这个地标商业，无人接盘！

菁英人居 全能豪宅

天津女教师怼家长！完整录音曝光，老师很嚣张，饭碗恐不保了

有鸿蒙·更美的——全球首台鸿蒙智选美的智能空调上市

美国政府强力下场苹果英特尔达成代工协议

演员文章面馆大火后又开酒吧多位明星到场母亲也现身

演员文章面馆大火后又开酒吧多位明星到场母亲也现身

轴距加长/智驾拉满阿维塔07L定位大五座SUV

菁英人居全能豪宅