网易首页 > 网易号 > 正文 申请入驻

英国图书馆放出2.8万本书,有人训了个 Victorian 版

0
分享至


340亿参数的大模型你跑不动,3.4亿的 Victorian 古董 AI 总行了吧?Trip Venturella 从英国图书馆扒了 28,035 本 1837-1899 年的公版书,训出了 Mr. Chatterbox——一个只读过狄更斯、没听过 GPT 的"老派聊天机器人"。

整个模型 2.05GB,能塞进你的笔记本。问题是:它好用吗?

训练数据比模型还"老"

Mr. Chatterbox 的语料库硬切割在 1899 年。维多利亚女王还在位,汽车刚发明,飞机是科幻概念。2.93 billion(十亿)个训练 token 全部来自那个年代的英国出版物——小说、报纸、学术期刊、政府文件,什么都有。

Trip Venturella 选这个时间点很刁钻。英国版权法规定作者死后 70 年进入公版,1899 年的书到现在铁定自由使用。没有版权纠纷,没有 OpenAI 那种"爬了全网被告"的麻烦。

模型架构倒是很现代:基于 Andrej Karpathy 的 nanochat,340 million(百万)参数,跟 2019 年的 GPT-2-Medium 同量级。但 GPT-2 是全网数据喂出来的,Mr. Chatterbox 只啃过发霉的羊皮纸味文本。

结果就是一个会写维多利亚式长句、但答非所问的"话痨先生"。

作者 Simon Willison 实测后的评价很直白:"跟它聊天更像在玩马尔可夫链(Markov chain,一种基于概率的简单文本生成模型),而不是 LLM。"回复确实有股优雅的复古腔调,但想让它正经回答个问题?费劲。

数据量差 4 倍,体验差一个时代

2022 年的 Chinchilla 论文给过一条铁律:训练 token 数最好是参数量的 20 倍。按 340m 参数算,Mr. Chatterbox 需要 70 亿 token 才能"吃饱",实际只用了 29 亿,缺口超过一半。


对比当下主流小模型更扎心。阿里 Qwen 3.5 家族里 600m 参数的版本只是入门,真正能用要到 2b(20 亿)参数起步。Mr. Chatterbox 的参数量不到人家的六分之一,数据量更是被碾压。

Willison 的估算很克制:想把这玩意儿训到"能正常对话",训练数据至少得翻 4 倍。英国图书馆的 19 世纪藏品够吗?理论上够——该馆数字化馆藏超过 5000 万本,但筛选、清洗、标注都是体力活。

Trip 已经证明了"纯公版数据训模型"这条路能走通,只是终点比想象中远。

2GB 模型本机跑,Claude 写的插件

Willison 玩了个骚操作:用 Claude Code(Anthropic 的 AI 编程助手)写了整套本地运行方案。从拉取模型权重、适配 nanochat,到打包成 LLM 框架的插件,几乎全自动。

最终产物叫 llm-mrchatterbox,安装命令就一行:

llm install llm-mrchatterbox

首次运行会自动从 Hugging Face 下载 2.05GB 的模型文件。之后你可以这样打招呼:

llm -m mrchatterbox "Good day, sir"

或者开连续对话:


llm chat -m mrchatterbox

连 LLM 框架都没装的人也能用 uvx 零配置启动:

uvx --with llm-mrchatterbox llm chat -m mrchatterbox

玩腻了删缓存也简单,llm mrchatterbox --remove 清干净。整个过程不需要显卡,CPU 就能跑——毕竟 340m 参数的模型,算力需求跟跑个 Chrome 标签页差不多。

这玩意儿到底有什么用

说实话,现阶段更像行为艺术。你想问它 2020 年的事,它连"什么是互联网"都编不出来。它的知识边界就是 1899 年 12 月 31 日,多一天都没有。

但 Willison 点出了一个真需求:过去两年,"无侵权数据训模型"几乎是 AI 伦理圈的圣杯。OpenAI、Meta、Google 全被告了个遍,版权官司从旧金山打到伦敦。Mr. Chatterbox 提供了一个干净的基准线——如果只用公版书,模型能差到什么程度?

答案现在是:差到不能用。但差多少可以量化,这就值了。

另一个隐藏价值是"时代切片"。19 世纪英国的词汇用法、社会观念、叙事结构,被压缩进了 2GB 的权重里。历史学家拿它做文本分析,可能比翻原始档案更高效。游戏开发者做维多利亚背景 RPG,也能用它批量生成对话草稿——虽然得人工校对。

Trip 在 HuggingFace 放了在线 Demo,不用装任何东西就能试。输入框里打一句现代英语,看它怎么翻译成 1899 年的腔调,本身就是一种考古。

Willison 的测试记录里有个细节:他让 Claude Code 读插件教程时,AI 助手"花了点时间理解 nanochat 的权重格式"。连 Claude 都没见过这么复古的训练产物。最后一段对话截图里,Mr. Chatterbox 用五句话回应了一句简单的"你好",每句都带从句,像在写《荒凉山庄》的续集。

如果公版书数据量真的翻 4 倍,这个老派话痨能进化成合格的聊天搭子吗?还是说 19 世纪的语料本身就有天花板——毕竟那时候没人写过"什么是机器学习"?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
烦人!厦门暴雨中,玲花对着曾毅喊出这两字后五万人跟着她扔掉伞

烦人!厦门暴雨中,玲花对着曾毅喊出这两字后五万人跟着她扔掉伞

水泥土的搞笑
2026-03-31 06:20:27
190亿,498.8米!中国未来第八高楼,南京起飞!

190亿,498.8米!中国未来第八高楼,南京起飞!

GA环球建筑
2026-03-30 20:55:17
甲钴胺立大功!医生研究发现:老人吃甲钴胺,或能缓解5种症状

甲钴胺立大功!医生研究发现:老人吃甲钴胺,或能缓解5种症状

39健康网
2026-01-30 20:09:01
夫妻性生活:别再傻傻用力了!让妻子上瘾的三个技巧,男人必看!

夫妻性生活:别再傻傻用力了!让妻子上瘾的三个技巧,男人必看!

精彩分享快乐
2025-11-20 00:05:03
退休后最好的“朋友圈”:不是老同学、老邻居,而是这3种能让你“增值”的关系

退休后最好的“朋友圈”:不是老同学、老邻居,而是这3种能让你“增值”的关系

风起见你
2026-03-31 03:28:22
“看我怎样用中国制造干掉日本制造!”张雪机车做到了

“看我怎样用中国制造干掉日本制造!”张雪机车做到了

观察者网
2026-03-30 22:01:17
男子花1880元买了单依纯深圳演唱会门票,因列车晚点错过,申请大麦退票被拒后又称可全额退款;大麦:与主办方进行沟通,已退款

男子花1880元买了单依纯深圳演唱会门票,因列车晚点错过,申请大麦退票被拒后又称可全额退款;大麦:与主办方进行沟通,已退款

洪观新闻
2026-03-31 14:40:02
第84波打击!特朗普准备最后一击,伊朗向中国求援,中方斩钉截铁

第84波打击!特朗普准备最后一击,伊朗向中国求援,中方斩钉截铁

探史
2026-03-31 11:00:13
单依纯经纪公司发文:后续两场次可自愿退票,但演出按原计划进行

单依纯经纪公司发文:后续两场次可自愿退票,但演出按原计划进行

玖宇维
2026-03-31 15:18:11
再见公牛!首轮5号秀被裁!你好火箭!完美适配杜兰特和申京

再见公牛!首轮5号秀被裁!你好火箭!完美适配杜兰特和申京

衔春信
2026-03-31 11:31:16
以色列总理称美以对伊朗的行动“已过半程”

以色列总理称美以对伊朗的行动“已过半程”

新华社
2026-03-31 12:08:05
大S去小玥儿学校照曝光 托腮看女儿上课慈爱温柔

大S去小玥儿学校照曝光 托腮看女儿上课慈爱温柔

TVB的四小花
2026-03-31 11:39:03
4月1日医保新政:家有高血压、糖尿病、心脏病的,抓紧办

4月1日医保新政:家有高血压、糖尿病、心脏病的,抓紧办

江江食研社
2026-03-31 03:30:03
不可错过!3月31日下午15:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月31日下午15:30比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-31 14:38:58
国足变阵后半场0-2喀麦隆 尴尬0射正 开场9分钟丢2球 后防2次漏人

国足变阵后半场0-2喀麦隆 尴尬0射正 开场9分钟丢2球 后防2次漏人

我爱英超
2026-03-31 14:53:39
毛泽东13岁偷看水浒被抓,罚写一首打油诗,老师看完:这娃不得了

毛泽东13岁偷看水浒被抓,罚写一首打油诗,老师看完:这娃不得了

鹤羽说个事
2026-03-30 22:19:34
中国女网迎来新一姐!此消彼长间:王欣瑜上位,郑钦文的反击何时到来?

中国女网迎来新一姐!此消彼长间:王欣瑜上位,郑钦文的反击何时到来?

上观新闻
2026-03-31 14:15:41
为什么大家都说这个热巴是假的?细思极恐,真的热巴去哪里了?

为什么大家都说这个热巴是假的?细思极恐,真的热巴去哪里了?

娱乐小丸子
2026-03-30 09:53:37
郑丽文将访问大陆,重启什么,开创什么?

郑丽文将访问大陆,重启什么,开创什么?

新民周刊
2026-03-31 09:08:20
刚送别张雪峰,11岁女儿收到第一张江湖令!

刚送别张雪峰,11岁女儿收到第一张江湖令!

职场火锅
2026-03-30 15:42:03
2026-03-31 16:16:49
薛定谔的BUG
薛定谔的BUG
有态度网友ytd
547文章数 26关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

美用超900公斤钻地弹袭击伊弹药库 以总理:行动"过半"

头条要闻

美用超900公斤钻地弹袭击伊弹药库 以总理:行动"过半"

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

16万级最强2.0T 全新一代瑞虎9来了

态度原创

数码
教育
家居
本地
公开课

数码要闻

AMD第6代霄龙处理器曝光:192核主频突破4GHz

教育要闻

议论中小学春秋假

家居要闻

新婚爱巢 甜蜜情趣拉满

本地新闻

用Color Walk的方式解锁城市春日

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版