网易首页 > 网易号 > 正文 申请入驻

Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」

0
分享至


新智元报道

编辑:定慧

【新智元导读】AI传奇人物、前特斯拉AI总监Karpathy重磅推出全新开源项目「nanochat」,以不到8000行代码复现ChatGPT全流程,只需一台GPU、约4小时、成本仅百美元。该项目在GitHub上线不到12小时即获4.2k星标!

AI传奇人物、前特斯拉AI总监Karpathy宣布发布全新项目nanochat!

一个极简但完整的「从零构建ChatGPT」训练框架。


Karpathy说这是他写过的最疯狂的项目之一!

相当于每个人都可以自己拥有一个专属的ChatGPT。


项目刚放出还不到12个小时,GitHub星标就破4.2kStar!(还在持续疯涨中)


GitHub项目:https://github.com/karpathy/nanochat

全是社区自来水流量,这就是Karpathy在AI领域的号召力!


与早期的nanoGPT不同,nanochat不仅涵盖预训练,还囊括了从数据准备、预训练、中期训练(对话、多项选择题、工具使用)、SFT、RL微调到推理部署的全流程

整个系统仅约8000行干净代码,启动一台GPU机器、运行一条脚本,4小时后你就能在网页界面与自己训练的「小ChatGPT」对话。

Karpathy将其称为LLM101n的「压轴之作」,同时也可能成为未来研究基线和开源社区的实验平台。

让我来仔细看看如何仅仅用8000行来「克隆」ChatGPT:

  • 使用全新的Rust实现训练分词器

  • 在FineWeb上对TransformerLLM进行预训练,评估多个指标下的CORE分数

  • 在来自SmolTalk的用户-助手对话、多项选择题、工具使用数据上进行中期训练

  • 进行SFT,在世界知识多项选择题(ARC-E/C、MMLU)、数学(GSM8K)、代码(HumanEval)上评估聊天模型

  • 使用「GRPO」在GSM8K上对模型进行强化学习微调(RL)

  • 在带有KV缓存的引擎中实现高效推理,简单的预填充/解码,工具使用(在轻量级沙箱中的Python解释器),通过CLI或类ChatGPT的网页界面与其交互。

  • 撰写一份单一的Markdown成绩单,总结并将整个过程游戏化。

项目全程花费低至约100美元(约在一台8XH100节点上训练4小时)

可以训练、克隆一个可以对话的小型ChatGPT,它能创作故事/诗歌、回答简单问题

只需要训练约12小时即可超过GPT-2的核心指标

随着进一步扩展到约1000美元(约41.6小时训练),模型会迅速变得更连贯,能解决简单的数学/代码问题并做多项选择题

训练24小时的模型(其FLOPs大致相当于GPT-3Small125M,约为GPT-3的1/1000)在MMLU上能进入40分段,在ARC-Easy上进入70分段,在GSM8K上进入20分段等。

总结一下就是:

  • 100美元→可训练出一个能写诗、回答基础问题的OpenAI同款「小型ChatGPT」;

  • 1000美元→达到近GPT-2以上的表现,可做基础推理与代码生成。

这个项目体现出他的核心理念:

「降低 LLM 研究与复现门槛,让每个人都能亲手训练自己的模型。」

这种民主化路线,与他在nanoGPT时期倡导的「从零实现Transformer」如出一辙。


项目地址:https://github.com/karpathy/nanoGPT

Karpathy说他的目标是把完整的「强基线」栈整合到一个连贯、极简、可读、可修改、可最大化派生的仓库中。

nanochat将成为LLM101n(仍在开发中)的压轴项目。

Karpathy认为nanochat也有可能发展成一个研究工具或基准,就像之前的nanoGPT一样。

nanoGPT教你造大脑,nanochat教你造ChatGPT。

如果说nanoGPT是「Transformer源码教学项目」。

那么,nanochat则是「LLM生态系统微缩版」、OpenAI同款、你的专属AI。

二者关系可理解为「从神经网络基础到产品级对话系统」的两步闭环。

Vibe CodingnanoGPT,再到如今的nanochat,Karpathy不愧是「AI教育者」的最佳代言人。

这一「疯狂之作」并非狂想,而是Karpathy对AI开放、可学习、可复现理想的又一次践行。

小型ChatGPT效果展示

Karpathy在WebUI部署了nanochat项目。

他还给出了「与价格为100美元、运行4小时的」nanochat的示例对话。

很……有趣!


下面这张图展示的是Karpathy在nanochat「$100速度跑」实验(即只用一台GPU、约4小时训练出的ChatGPT 小模型)中生成的「成绩单」部分内容,说明模型规模、训练耗时、以及在各类标准评测上的性能。

  • Characters:333989 —— 代码总字符数。

  • Lines:8304 —— 大约 8300 行干净、注释良好的代码。

  • Files:44 —— 工程文件数量。

  • Tokens:约83,497 —— 代码中的token数(大致对应8万词)。

  • Dependencies:2004行uv.lock依赖清单 —— 表明依赖极少、项目结构轻。

这些数字展示了nanochat的「极简」精神:完整实现了 ChatGPT 的训练、微调与推理,却仍保持在8000行代码以内。


参考资料:

https://x.com/karpathy/status/1977755427569111362

https://github.com/karpathy/nanochat

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“天河机场飞机冲上街头”?官方回应来了

“天河机场飞机冲上街头”?官方回应来了

鲁中晨报
2025-11-04 18:11:04
男子与列车相撞致死,官方通报

男子与列车相撞致死,官方通报

大风新闻
2025-11-04 17:08:03
秦雯“袭警录音门”发酵升级!她是三八红旗手,网传配偶比较厉害

秦雯“袭警录音门”发酵升级!她是三八红旗手,网传配偶比较厉害

火山诗话
2025-11-04 06:13:25
自导自演!印度媒体称,已向中国施压,中国将推迟交付歼-35订单

自导自演!印度媒体称,已向中国施压,中国将推迟交付歼-35订单

军机Talk
2025-11-04 11:33:38
你亲戚提出最炸裂的要求是啥?网友:妯娌让我给她还债,问我要钱

你亲戚提出最炸裂的要求是啥?网友:妯娌让我给她还债,问我要钱

带你感受人间冷暖
2025-11-03 00:15:03
伤亡巨大!俄库尔斯克州遇袭,近2000人伤亡,数百人下落不明;乌克兰:大量哥伦比亚人参与对俄作战

伤亡巨大!俄库尔斯克州遇袭,近2000人伤亡,数百人下落不明;乌克兰:大量哥伦比亚人参与对俄作战

每日经济新闻
2025-11-04 15:15:11
你无意中看见哪些不可见人的事?网友:成年人的世界都这么污吗

你无意中看见哪些不可见人的事?网友:成年人的世界都这么污吗

带你感受人间冷暖
2025-11-04 00:15:08
全网聚焦!原配妻子强势反攻,这波操作简直“杀人诛心”

全网聚焦!原配妻子强势反攻,这波操作简直“杀人诛心”

一杯咖啡语
2025-11-04 15:08:15
太难了!安徽宣酒全员降薪10%,声称“因受当前经济的严重影响”

太难了!安徽宣酒全员降薪10%,声称“因受当前经济的严重影响”

火山诗话
2025-11-04 17:03:32
三折叠手机用了3个月后屏显异常,男子要退换被拒,京东回应

三折叠手机用了3个月后屏显异常,男子要退换被拒,京东回应

澎湃新闻
2025-11-04 00:32:05
判处死刑!缅北白应苍昔日炫富张狂犹在眼前,今血债血偿报应临头

判处死刑!缅北白应苍昔日炫富张狂犹在眼前,今血债血偿报应临头

可达鸭面面观
2025-11-04 13:26:12
制裁风暴来袭之下:我国炼油厂集体避开俄罗斯油!看来不过如此…

制裁风暴来袭之下:我国炼油厂集体避开俄罗斯油!看来不过如此…

翻开历史和现实
2025-11-04 09:37:00
14岁女孩发视频质问爸爸,四次不敲门盯着看洗澡,后续妇联已介入

14岁女孩发视频质问爸爸,四次不敲门盯着看洗澡,后续妇联已介入

派大星纪录片
2025-11-04 16:36:23
阿根廷总统米莱向自己开刀,居然取消国家媒体和总统特权

阿根廷总统米莱向自己开刀,居然取消国家媒体和总统特权

深度报
2025-11-03 22:51:46
24岁时迪巴拉身价高达1.1亿!但如今仅剩800万,原因真的太扎心!

24岁时迪巴拉身价高达1.1亿!但如今仅剩800万,原因真的太扎心!

田先生篮球
2025-11-04 12:16:13
潘石屹再次预判我国楼市,不出意外,未来3年楼市将迎来“三大走向”

潘石屹再次预判我国楼市,不出意外,未来3年楼市将迎来“三大走向”

亚哥谈古论今
2025-11-03 20:27:36
重大突破!以色列成功植入人工眼角膜,又一次走在全球科技前沿!

重大突破!以色列成功植入人工眼角膜,又一次走在全球科技前沿!

霜风如刀
2025-11-03 16:17:25
突然官宣! 中国变相双国籍! 澳洲在内, 华人狂喜! 外籍华人只要这样做, 就能在中国长期定居

突然官宣! 中国变相双国籍! 澳洲在内, 华人狂喜! 外籍华人只要这样做, 就能在中国长期定居

澳洲红领巾
2025-11-04 13:05:00
中芯国际工厂内的光刻机快撑不住了,800亿美元设备恐变废品?

中芯国际工厂内的光刻机快撑不住了,800亿美元设备恐变废品?

普陀动物世界
2025-11-04 14:51:32
上官正义遭死亡威胁,2000万买命+艾滋注射威胁!杭州警方已立案

上官正义遭死亡威胁,2000万买命+艾滋注射威胁!杭州警方已立案

阿伧说事
2025-11-04 09:42:58
2025-11-04 19:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13783文章数 66237关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

上海一老小区居民因加装电梯引争执 调解时一老人猝死

头条要闻

上海一老小区居民因加装电梯引争执 调解时一老人猝死

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

爸爸去哪儿6孩子现状,个个不同

财经要闻

作价40亿美元!星巴克中国易主

汽车要闻

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

旅游
艺术
亲子
时尚
公开课

旅游要闻

陕西山阳县天竺山“引客” 僧道关村“变身”

艺术要闻

何镜堂院士出手!广州再添150米新地标

亲子要闻

幼儿园不让教文化课,这几部动画片也能长知识!

冬天穿灰色,这8种搭配方式很高级!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版