网易首页 > 网易号 > 正文 申请入驻

Karpathy再放大招:8000行代码复现ChatGPT全栈,最低成本仅100美元,4小时跑完

0
分享至


刚刚,Andrej Karpathy发布了一个新的项目:nanochat

与之前只覆盖预训练的nanoGPT不同,nanochat是一个从头开始、代码极简的全栈式ChatGPT克隆体训练/推理流水线。它被集成在一个单一、依赖极少的代码库中

Karpathy表示,用户只需启动一个云端GPU机器,运行一个脚本,最快4小时后,就能在类似ChatGPT的网页界面中与自己训练的LLM对话


整个项目代码量约8000行,覆盖了以下完整流程:

训练分词器:使用新的Rust实现

预训练:在FineWeb上预训练一个Transformer LLM,并根据多项指标评估CORE分数

中间训练:在来自SmolTalk的用户-助手对话、多项选择题和工具使用数据上进行训练

SFT(监督微调):在世界知识选择题(ARC-E/C, MMLU)、数学(GSM8K)和代码(HumanEval)上对聊天模型进行微调和评估

RL(强化学习):可选地使用“GRPO”在GSM8K上对模型进行强化学习

高效推理:在带有KV缓存的引擎中进行高效推理,支持简单的prefill/decode和工具使用(在轻量级沙箱中调用Python解释器),并可通过命令行或类似ChatGPT的WebUI进行交互

生成报告卡:撰写一份markdown格式的报告卡,对整个过程进行总结和游戏化呈现

成本与性能

Karpathy详细介绍了不同投入下的模型表现:

约100美元成本(在8xH100节点上训练约4小时):可以训练出一个能进行简单对话、写故事/诗歌、回答简单问题的小ChatGPT克隆体

约12小时训练:CORE指标超过GPT-2

更高投入,约1000美元成本(约41.6小时训练):模型会变得更加连贯,能够解决简单的数学和代码问题,并参加多项选择题测试

例如,一个深度为30、训练24小时的模型(其FLOPs约等于GPT-3 Small 125M,是GPT-3的1/1000),在MMLU测试上得分40多分,ARC-Easy上70多分,GSM8K上20多分

Karpathy的目标是将完整的强基线技术栈整合到一个有凝聚力、最小化、可读、可破解、最大程度可fork的仓库中。nanochat也将成为他仍在开发的LLM101n课程的顶点项目。他认为,这个项目有潜力发展成为一个研究工具或基准,就像之前的nanoGPT一样

他也坦言,项目远未完成、调优或优化,可能还有很多容易优化的部分,但目前的整体框架已经足够好,可以发布到GitHub上,让社区共同改进。

GitHub仓库地址:

https://github.com/karpathy/nanochat

更详细的技术介绍:

https://github.com/karpathy/nanochat/discussions/1

技术细节与问答

在发布后,Karpathy也回答了网友们关心的一些问题。

问:这个模型训练的架构是什么?

Karpathy:基本上类似Llama,但更简单一些,也受到一些修改版nanoGPT的影响。我试图为这个规模找到一个坚实的基线:

密集Transformer

旋转嵌入(RoPE),无位置嵌入

QK Norm

Embedding和Unembedding权重不绑定

Token embedding后接Norm

MLP中使用relu^2激活函数

RMSNorm中无可学习参数

线性层中无偏置项

多查询注意力(MQA)

Logit softcap

优化器是Muon+AdamW,深受修改版nanoGPT的影响。我有一个TODO是尝试很好地调整Adam的学习率(例如按模块调整)以移除Muon,但我还没有足够努力地去尝试。

问:我可以用它来训练我自己的数据吗?比如我所有的Notion笔记、健康数据和其他LLM聊天记录,来做一个理解我的个人聊天机器人?

Karpathy:好问题。我认为这个仓库不适合做这件事。你应该把这些微型模型更多地看作是非常年幼的孩子(比如幼儿园水平),它们不具备那些更大模型的原始智能。如果你用自己的数据对它进行微调/训练,你可能会得到一些有趣的模仿,风格上感觉像你的写作,但内容会很糟糕。

要实现你想要的效果,你需要更复杂的流程:

1.获取你的原始数据。
2.在其之上进行大量的合成数据生成和重写(这很棘手,不简单,属于研究范畴)。
3.在一个最先进的开源LLM上进行微调。
4.你可能还需要混合大量的预训练数据,以避免在微调过程中损失过多的原始智能。

基本上,要让这个工作得很好,仍然是研究领域的范畴,并不简单。你最好的非研究选择是,把你的所有写作内容交给像NotebookLM这样的工具,它会通过RAG(检索增强生成)来处理你的数据。你的数据通过RAG进入上下文窗口,但不会影响模型权重。所以模型并不真正“了解你”,但这可能是你最容易接近的效果。

问:这些代码有多少是你手写的?

Karpathy:好问题,基本上完全是手写的(配合Tab自动补全)。我试过几次使用Claude/Codex的AI智能体,但它们的效果根本不够好,最终没什么帮助,可能是因为这个仓库偏离了它们的数据分布太远

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
很多被奉为经典的古文,很难说有多少教育意义

很多被奉为经典的古文,很难说有多少教育意义

小院之观
2026-03-24 08:30:13
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
张雪峰去世仅两天!公司宣布重大决定:收回他所有肖像使用权

张雪峰去世仅两天!公司宣布重大决定:收回他所有肖像使用权

娱乐圈圈圆
2026-03-26 21:47:07
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

知法而形
2026-03-25 18:38:56
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

往史过眼云烟
2026-03-25 14:51:15
到底有多无知,才能做出这样的判决!

到底有多无知,才能做出这样的判决!

槽三刀
2026-03-25 22:01:04
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

沧海旅行家
2026-03-26 18:23:44
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
人狂自有天收

人狂自有天收

李老逵乱摆龙门阵
2025-09-11 09:01:28
受权发布|中华人民共和国国务院令  第833号

受权发布|中华人民共和国国务院令  第833号

新华社
2026-03-26 17:03:04
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

过期少女致幻录
2026-03-26 11:44:43
连续两个月从中国进口镓锗为零后,日本宣布无人机要做世界第一

连续两个月从中国进口镓锗为零后,日本宣布无人机要做世界第一

小小科普员
2026-03-26 19:07:58
中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

趣生活
2026-03-26 22:16:24
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
手机放床头辐射伤身?央视实验给出答案:这样放手机,辐射降10倍

手机放床头辐射伤身?央视实验给出答案:这样放手机,辐射降10倍

天气观察站
2026-03-24 19:02:53
2026-03-27 02:47:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1035文章数 396关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
家居
旅游
房产
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版