网易首页 > 网易号 > 正文 申请入驻

Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」

0
分享至


新智元报道

编辑:定慧

【新智元导读】AI传奇人物、前特斯拉AI总监Karpathy重磅推出全新开源项目「nanochat」,以不到8000行代码复现ChatGPT全流程,只需一台GPU、约4小时、成本仅百美元。该项目在GitHub上线不到12小时即获4.2k星标!

AI传奇人物、前特斯拉AI总监Karpathy宣布发布全新项目nanochat!

一个极简但完整的「从零构建ChatGPT」训练框架。


Karpathy说这是他写过的最疯狂的项目之一!

相当于每个人都可以自己拥有一个专属的ChatGPT。


项目刚放出还不到12个小时,GitHub星标就破4.2kStar!(还在持续疯涨中)


GitHub项目:https://github.com/karpathy/nanochat

全是社区自来水流量,这就是Karpathy在AI领域的号召力!


与早期的nanoGPT不同,nanochat不仅涵盖预训练,还囊括了从数据准备、预训练、中期训练(对话、多项选择题、工具使用)、SFT、RL微调到推理部署的全流程

整个系统仅约8000行干净代码,启动一台GPU机器、运行一条脚本,4小时后你就能在网页界面与自己训练的「小ChatGPT」对话。

Karpathy将其称为LLM101n的「压轴之作」,同时也可能成为未来研究基线和开源社区的实验平台。

让我来仔细看看如何仅仅用8000行来「克隆」ChatGPT:

  • 使用全新的Rust实现训练分词器

  • 在FineWeb上对TransformerLLM进行预训练,评估多个指标下的CORE分数

  • 在来自SmolTalk的用户-助手对话、多项选择题、工具使用数据上进行中期训练

  • 进行SFT,在世界知识多项选择题(ARC-E/C、MMLU)、数学(GSM8K)、代码(HumanEval)上评估聊天模型

  • 使用「GRPO」在GSM8K上对模型进行强化学习微调(RL)

  • 在带有KV缓存的引擎中实现高效推理,简单的预填充/解码,工具使用(在轻量级沙箱中的Python解释器),通过CLI或类ChatGPT的网页界面与其交互。

  • 撰写一份单一的Markdown成绩单,总结并将整个过程游戏化。

项目全程花费低至约100美元(约在一台8XH100节点上训练4小时)

可以训练、克隆一个可以对话的小型ChatGPT,它能创作故事/诗歌、回答简单问题

只需要训练约12小时即可超过GPT-2的核心指标

随着进一步扩展到约1000美元(约41.6小时训练),模型会迅速变得更连贯,能解决简单的数学/代码问题并做多项选择题

训练24小时的模型(其FLOPs大致相当于GPT-3Small125M,约为GPT-3的1/1000)在MMLU上能进入40分段,在ARC-Easy上进入70分段,在GSM8K上进入20分段等。

总结一下就是:

  • 100美元→可训练出一个能写诗、回答基础问题的OpenAI同款「小型ChatGPT」;

  • 1000美元→达到近GPT-2以上的表现,可做基础推理与代码生成。

这个项目体现出他的核心理念:

「降低 LLM 研究与复现门槛,让每个人都能亲手训练自己的模型。」

这种民主化路线,与他在nanoGPT时期倡导的「从零实现Transformer」如出一辙。


项目地址:https://github.com/karpathy/nanoGPT

Karpathy说他的目标是把完整的「强基线」栈整合到一个连贯、极简、可读、可修改、可最大化派生的仓库中。

nanochat将成为LLM101n(仍在开发中)的压轴项目。

Karpathy认为nanochat也有可能发展成一个研究工具或基准,就像之前的nanoGPT一样。

nanoGPT教你造大脑,nanochat教你造ChatGPT。

如果说nanoGPT是「Transformer源码教学项目」。

那么,nanochat则是「LLM生态系统微缩版」、OpenAI同款、你的专属AI。

二者关系可理解为「从神经网络基础到产品级对话系统」的两步闭环。

Vibe CodingnanoGPT,再到如今的nanochat,Karpathy不愧是「AI教育者」的最佳代言人。

这一「疯狂之作」并非狂想,而是Karpathy对AI开放、可学习、可复现理想的又一次践行。

小型ChatGPT效果展示

Karpathy在WebUI部署了nanochat项目。

他还给出了「与价格为100美元、运行4小时的」nanochat的示例对话。

很……有趣!


下面这张图展示的是Karpathy在nanochat「$100速度跑」实验(即只用一台GPU、约4小时训练出的ChatGPT 小模型)中生成的「成绩单」部分内容,说明模型规模、训练耗时、以及在各类标准评测上的性能。

  • Characters:333989 —— 代码总字符数。

  • Lines:8304 —— 大约 8300 行干净、注释良好的代码。

  • Files:44 —— 工程文件数量。

  • Tokens:约83,497 —— 代码中的token数(大致对应8万词)。

  • Dependencies:2004行uv.lock依赖清单 —— 表明依赖极少、项目结构轻。

这些数字展示了nanochat的「极简」精神:完整实现了 ChatGPT 的训练、微调与推理,却仍保持在8000行代码以内。


参考资料:

https://x.com/karpathy/status/1977755427569111362

https://github.com/karpathy/nanochat

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演员倪妮发律师声明,否认“有后台”等传闻,表示将通过法律维权

演员倪妮发律师声明,否认“有后台”等传闻,表示将通过法律维权

极目新闻
2025-11-01 12:11:28
毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

鹤羽说个事
2025-10-30 15:53:46
“舅舅照顾3个外甥近10年”引关注,舅舅回应:20岁开始照顾,那时刚中专毕业

“舅舅照顾3个外甥近10年”引关注,舅舅回应:20岁开始照顾,那时刚中专毕业

红星新闻
2025-11-01 22:30:18
荷兰再出昏招,想用晶圆卡脖子,反而为中企送来订单

荷兰再出昏招,想用晶圆卡脖子,反而为中企送来订单

粤语音乐喷泉
2025-11-01 03:25:57
1-0,英超第9掀翻英超第3,佩德罗一剑封喉,切尔西逼近前二

1-0,英超第9掀翻英超第3,佩德罗一剑封喉,切尔西逼近前二

侧身凌空斩
2025-11-02 03:32:28
退休夫妇从32楼跃下,3年后房被贱卖,买主深夜竟听天花板有脚步声

退休夫妇从32楼跃下,3年后房被贱卖,买主深夜竟听天花板有脚步声

罪案洞察者
2025-09-23 14:37:35
官媒发文,高调官宣49岁马伊琍喜讯,全网恭喜,终于等到这一天

官媒发文,高调官宣49岁马伊琍喜讯,全网恭喜,终于等到这一天

喜欢历史的阿繁
2025-11-01 10:43:34
中国环境报:种植营养土竟然是工业毒废土,是谁拿着资质坑国家补贴?

中国环境报:种植营养土竟然是工业毒废土,是谁拿着资质坑国家补贴?

澎湃新闻
2025-10-31 17:05:11
巴基斯坦“罕见公开”!

巴基斯坦“罕见公开”!

环球时报新闻
2025-11-01 09:12:16
曾经的中产标配,如今暴跌66%,又土又贵的女装,成了时代的弃儿

曾经的中产标配,如今暴跌66%,又土又贵的女装,成了时代的弃儿

青眼财经
2025-10-28 10:34:29
170cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭了…

170cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭了…

健身迷
2025-09-20 09:22:20
国足深夜传消息!11月热身赛再度告吹,10人进入选帅最终面试

国足深夜传消息!11月热身赛再度告吹,10人进入选帅最终面试

体育吐槽
2025-11-01 23:54:25
这种丰满的腿,穿紧身瑜伽裤真的好看吗?

这种丰满的腿,穿紧身瑜伽裤真的好看吗?

小乔古装汉服
2025-10-15 17:16:17
风向彻底变了?外媒已经开始承认,中国在多个科技领域实现领先

风向彻底变了?外媒已经开始承认,中国在多个科技领域实现领先

大卫聊科技
2025-10-31 14:35:13
官宣,乒乓奥运冠军被调查,涉嫌受贿,弟弟波及,单笔涉及7位数

官宣,乒乓奥运冠军被调查,涉嫌受贿,弟弟波及,单笔涉及7位数

乐聊球
2025-10-30 10:06:06
3-2,3-0!法国冠军赛,王艺迪逆转过关,国乒劲敌大胜晋级

3-2,3-0!法国冠军赛,王艺迪逆转过关,国乒劲敌大胜晋级

小哆说体育
2025-11-01 22:07:28
日本穆斯林人数十年翻倍,日本女性嫁穆斯林而改宗

日本穆斯林人数十年翻倍,日本女性嫁穆斯林而改宗

桂系007
2025-09-02 10:12:24
宁夏退伍士兵将岳父全家7口人全部割喉,妻子肚里的孩子都没放过

宁夏退伍士兵将岳父全家7口人全部割喉,妻子肚里的孩子都没放过

热风追逐者
2025-09-24 23:41:51
有点意思!吴宗宪复播,先表态自己是中国人,后又隔空称赞大小S

有点意思!吴宗宪复播,先表态自己是中国人,后又隔空称赞大小S

娱圈小愚
2025-11-01 13:16:20
台湾回归还有一种新方案,国民党若同意,解放军或无需动武

台湾回归还有一种新方案,国民党若同意,解放军或无需动武

瞻史
2025-10-31 02:20:52
2025-11-02 05:12:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13761文章数 66236关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

美国防长国务卿受威胁 躲进军事基地

头条要闻

美国防长国务卿受威胁 躲进军事基地

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

换新一口价11.98万 第三代蓝电E5 PLUS开启预售

态度原创

数码
房产
艺术
旅游
军事航空

数码要闻

预热 2026 FIFA 足球世界杯,闪迪推出多款授权设计存储产品

房产要闻

实力破圈!这个豪宅交付,正在定义海口品质样本!

艺术要闻

美貌与艺术的碰撞!9位摄影师,哪一位是你的菜?

旅游要闻

运河明珠,千年守望:杭州拱宸桥的前世今生与文化密码!

军事要闻

卡塔尔:加沙可能陷入“无战无和”局面

无障碍浏览 进入关怀版