网易首页 > 网易号 > 正文 申请入驻

Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」

0
分享至


新智元报道

编辑:定慧

【新智元导读】AI传奇人物、前特斯拉AI总监Karpathy重磅推出全新开源项目「nanochat」,以不到8000行代码复现ChatGPT全流程,只需一台GPU、约4小时、成本仅百美元。该项目在GitHub上线不到12小时即获4.2k星标!

AI传奇人物、前特斯拉AI总监Karpathy宣布发布全新项目nanochat!

一个极简但完整的「从零构建ChatGPT」训练框架。


Karpathy说这是他写过的最疯狂的项目之一!

相当于每个人都可以自己拥有一个专属的ChatGPT。


项目刚放出还不到12个小时,GitHub星标就破4.2kStar!(还在持续疯涨中)


GitHub项目:https://github.com/karpathy/nanochat

全是社区自来水流量,这就是Karpathy在AI领域的号召力!


与早期的nanoGPT不同,nanochat不仅涵盖预训练,还囊括了从数据准备、预训练、中期训练(对话、多项选择题、工具使用)、SFT、RL微调到推理部署的全流程

整个系统仅约8000行干净代码,启动一台GPU机器、运行一条脚本,4小时后你就能在网页界面与自己训练的「小ChatGPT」对话。

Karpathy将其称为LLM101n的「压轴之作」,同时也可能成为未来研究基线和开源社区的实验平台。

让我来仔细看看如何仅仅用8000行来「克隆」ChatGPT:

  • 使用全新的Rust实现训练分词器

  • 在FineWeb上对TransformerLLM进行预训练,评估多个指标下的CORE分数

  • 在来自SmolTalk的用户-助手对话、多项选择题、工具使用数据上进行中期训练

  • 进行SFT,在世界知识多项选择题(ARC-E/C、MMLU)、数学(GSM8K)、代码(HumanEval)上评估聊天模型

  • 使用「GRPO」在GSM8K上对模型进行强化学习微调(RL)

  • 在带有KV缓存的引擎中实现高效推理,简单的预填充/解码,工具使用(在轻量级沙箱中的Python解释器),通过CLI或类ChatGPT的网页界面与其交互。

  • 撰写一份单一的Markdown成绩单,总结并将整个过程游戏化。

项目全程花费低至约100美元(约在一台8XH100节点上训练4小时)

可以训练、克隆一个可以对话的小型ChatGPT,它能创作故事/诗歌、回答简单问题

只需要训练约12小时即可超过GPT-2的核心指标

随着进一步扩展到约1000美元(约41.6小时训练),模型会迅速变得更连贯,能解决简单的数学/代码问题并做多项选择题

训练24小时的模型(其FLOPs大致相当于GPT-3Small125M,约为GPT-3的1/1000)在MMLU上能进入40分段,在ARC-Easy上进入70分段,在GSM8K上进入20分段等。

总结一下就是:

  • 100美元→可训练出一个能写诗、回答基础问题的OpenAI同款「小型ChatGPT」;

  • 1000美元→达到近GPT-2以上的表现,可做基础推理与代码生成。

这个项目体现出他的核心理念:

「降低 LLM 研究与复现门槛,让每个人都能亲手训练自己的模型。」

这种民主化路线,与他在nanoGPT时期倡导的「从零实现Transformer」如出一辙。


项目地址:https://github.com/karpathy/nanoGPT

Karpathy说他的目标是把完整的「强基线」栈整合到一个连贯、极简、可读、可修改、可最大化派生的仓库中。

nanochat将成为LLM101n(仍在开发中)的压轴项目。

Karpathy认为nanochat也有可能发展成一个研究工具或基准,就像之前的nanoGPT一样。

nanoGPT教你造大脑,nanochat教你造ChatGPT。

如果说nanoGPT是「Transformer源码教学项目」。

那么,nanochat则是「LLM生态系统微缩版」、OpenAI同款、你的专属AI。

二者关系可理解为「从神经网络基础到产品级对话系统」的两步闭环。

Vibe CodingnanoGPT,再到如今的nanochat,Karpathy不愧是「AI教育者」的最佳代言人。

这一「疯狂之作」并非狂想,而是Karpathy对AI开放、可学习、可复现理想的又一次践行。

小型ChatGPT效果展示

Karpathy在WebUI部署了nanochat项目。

他还给出了「与价格为100美元、运行4小时的」nanochat的示例对话。

很……有趣!


下面这张图展示的是Karpathy在nanochat「$100速度跑」实验(即只用一台GPU、约4小时训练出的ChatGPT 小模型)中生成的「成绩单」部分内容,说明模型规模、训练耗时、以及在各类标准评测上的性能。

  • Characters:333989 —— 代码总字符数。

  • Lines:8304 —— 大约 8300 行干净、注释良好的代码。

  • Files:44 —— 工程文件数量。

  • Tokens:约83,497 —— 代码中的token数(大致对应8万词)。

  • Dependencies:2004行uv.lock依赖清单 —— 表明依赖极少、项目结构轻。

这些数字展示了nanochat的「极简」精神:完整实现了 ChatGPT 的训练、微调与推理,却仍保持在8000行代码以内。


参考资料:

https://x.com/karpathy/status/1977755427569111362

https://github.com/karpathy/nanochat

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大蒜塞耳朵里太厉害了,10个人9个都用得到,看完赶快叮嘱家人

大蒜塞耳朵里太厉害了,10个人9个都用得到,看完赶快叮嘱家人

妙招酷
2025-12-02 00:06:08
39亿“学费”,不要和流氓国家打交道

39亿“学费”,不要和流氓国家打交道

诗意世界
2025-12-16 09:00:03
菲律宾疯了,不仅强闯仙宾礁,甚至连20公分砍刀都用上

菲律宾疯了,不仅强闯仙宾礁,甚至连20公分砍刀都用上

三叔的装备空间
2025-12-16 14:21:02
瑞士陆军检修车间老照片:Pz68坦克中修维护 发动机被拆出检测

瑞士陆军检修车间老照片:Pz68坦克中修维护 发动机被拆出检测

hawk26讲武堂
2025-12-15 13:49:46
尹锡悦就是一个野心勃勃的大草包

尹锡悦就是一个野心勃勃的大草包

叮当当科技
2025-12-16 15:46:44
长得帅工作上真的有优势吗?网友:古人的智慧,身言书判有道理。

长得帅工作上真的有优势吗?网友:古人的智慧,身言书判有道理。

另子维爱读史
2025-12-16 16:42:03
被中国点名后,阿富汗拒参会不给中俄面子,抱印度大腿谋生机?

被中国点名后,阿富汗拒参会不给中俄面子,抱印度大腿谋生机?

针砭天下事
2025-12-16 14:39:01
中国一箭三雕之计落地!日本右翼天塌了,特朗普悄悄做了一个决定

中国一箭三雕之计落地!日本右翼天塌了,特朗普悄悄做了一个决定

南宫一二
2025-12-15 18:50:51
黎智英3罪成立!现场部分乱港分子企图扰乱!别急 下一个就是你们

黎智英3罪成立!现场部分乱港分子企图扰乱!别急 下一个就是你们

近史谈
2025-12-15 18:03:37
官方:雷吉隆自由身加盟迈阿密国际,双方签约至2027年底

官方:雷吉隆自由身加盟迈阿密国际,双方签约至2027年底

懂球帝
2025-12-15 23:24:27
黄有龙做梦也没想到,自己花重金培养大的女儿,竟给赵薇做了嫁衣

黄有龙做梦也没想到,自己花重金培养大的女儿,竟给赵薇做了嫁衣

洲洲影视娱评
2025-12-16 16:12:44
演员何晴家庭背景曝光!父亲是江山县体委干部,母亲是湘西苗族人

演员何晴家庭背景曝光!父亲是江山县体委干部,母亲是湘西苗族人

小徐讲八卦
2025-12-15 09:16:53
陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

八斗小先生
2025-12-08 11:07:02
A股:赔麻了,投资者哀嚎不已,大盘加速溃败,近4500股下跌

A股:赔麻了,投资者哀嚎不已,大盘加速溃败,近4500股下跌

虎哥闲聊
2025-12-16 10:46:41
东盟也要变天了,印尼如今终于清醒,柬埔寨被摁着摩擦不是偶然的

东盟也要变天了,印尼如今终于清醒,柬埔寨被摁着摩擦不是偶然的

文雅笔墨
2025-12-16 05:10:03
央视年代大剧《老舅》首播,看完4集,我要说:国产剧荣光回来了

央视年代大剧《老舅》首播,看完4集,我要说:国产剧荣光回来了

另子维爱读史
2025-12-15 22:28:10
1994 年,曾获一等功的女志愿军因重病住院,医药费耗尽了儿女的所有积蓄还欠了外债,无奈之下他们找到部队,急切地哀求:“救救俺娘吧”

1994 年,曾获一等功的女志愿军因重病住院,医药费耗尽了儿女的所有积蓄还欠了外债,无奈之下他们找到部队,急切地哀求:“救救俺娘吧”

史海孤雁
2025-12-13 16:17:09
里子面子都丢了!10人逃单新进展:组局者身份被扒,结局让人憋屈

里子面子都丢了!10人逃单新进展:组局者身份被扒,结局让人憋屈

好贤观史记
2025-12-15 15:54:30
最新消息!广东再发消费券

最新消息!广东再发消费券

广东发布
2025-12-15 21:25:31
“指纹锁”正在退出中国家庭?开锁师傅说出实情,让我恍然大悟!

“指纹锁”正在退出中国家庭?开锁师傅说出实情,让我恍然大悟!

空间设计
2025-11-26 12:32:03
2025-12-16 17:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14110文章数 66388关注度
往期回顾 全部

科技要闻

马斯克彻底放手!特斯拉股价一夜狂欢

头条要闻

日方转述历史条款回避"所窃取于中国之领土" 中方回应

头条要闻

日方转述历史条款回避"所窃取于中国之领土" 中方回应

体育要闻

杨瀚森18+10首次两双 关键攻防统治G联赛

娱乐要闻

温峥嵘回应卖面膜争议,已报警刑事立案

财经要闻

浙金中心暴雷始末:祥源控股设计的骗局?

汽车要闻

举集团之力,打造吉利式的安全

态度原创

家居
数码
亲子
旅游
教育

家居要闻

温馨独栋 驼色与浅色碰撞

数码要闻

2025年机电散市场年度盘点:回归实用主义,拥抱高性价比

亲子要闻

幼儿园老师教孩子们卷白菜塞衣法,冬季小技能学起来

旅游要闻

卢浮宫因员工罢工闭馆

教育要闻

12月19日开始打印准考证!省考试院发布致考生一封信!

无障碍浏览 进入关怀版