网易首页 > 网易号 > 正文 申请入驻

4小时喜提专属 ChatGPT、卡帕西又整活!自曝Agent帮倒忙、手搓八千行代码,网友:跑完就当上机器学习工程师

0
分享至


整理 | 华卫

“这是我写过的最精神错乱的作品之一。”刚刚,特斯拉前 AI 总监、OpenAI 创始成员 Andrej Karpathy(安德烈·卡帕西)发布了自己最新的开源项目,一个名为 nanochat 的存储库。截止当前,该项目已在 GitHub 破了 7.9kStar!


GitHub 仓库:

https://github.com/karpathy/nanochat

据介绍,和卡帕西之前那个只包含预训练功能的类似仓库 nanoGPT 不同,nanochat 是一个极简的、从零构建的全流程训练 / 推理工具链,可用于搭建简易版 ChatGPT 复现模型,且整个代码库仅一个文件,依赖项极少。

花半天用 100 美元训练的模型,

打败了 GPT-2

“100 美元能买到的最好的 ChatGPT”,卡帕西在公告中这样形容 nanochat。通过 nanochat,你只需启动一台云 GPU 服务器,运行一个脚本,最快 4 小时后,就能在类 ChatGPT 的网页界面上与你自己训练的大语言模型(LLM)对话。

具体来说,该项目可实现以下功能:

  • 基于全新 Rust 语言实现版本训练分词器(tokenizer)

  • 在 FineWeb 数据集上对 Transformer 架构大语言模型进行预训练,并通过多项指标评估 CORE 得分

  • 在 SmolTalk 用户 - 助手对话数据集、多项选择题数据集、工具使用数据集上进行中期训练(Midtrain)

  • 对聊天模型进行指令微调(SFT),并在世界知识多项选择题(ARC-E/C、MMLU)、数学题(GSM8K)、代码任务(HumanEval)上评估模型性能

  • 可选通过 “GRPO” 算法在 GSM8K 数据集上对模型进行强化学习(RL)训练

  • 在带有 KV 缓存的推理引擎中实现高效推理,支持简单的预填充 / 解码流程、工具使用(轻量级沙箱中的 Python 解释器),可通过命令行界面(CLI)或类 ChatGPT 网页界面(WebUI)与模型交互

  • 自动生成一份 Markdown 格式的 “报告卡”,对整个项目流程进行总结,并将各项指标以 “游戏化” 方式呈现

据卡帕西介绍,即便成本低至约 100 美元(在 8 卡 H100 节点上训练约 4 小时),也能用 nanochat 训练出一个可对话的简易版 ChatGPT 复现模型,它能写故事、写诗,还能回答简单问题。训练约 12 小时后,模型性能便可超过 GPT-2 的 CORE 指标。


在 Github 上,卡帕西讲解了用 100 美元“极速训练”出最优 ChatGPT 模型的详细过程。


详细技术步骤:

https://github.com/karpathy/nanochat/discussions/1

若进一步将成本提升至约 1000 美元(训练约 41.6 小时),模型的连贯性会显著提升,能够解决简单的数学题、代码任务,还能完成多项选择题测试。例如,一个深度为 30 的模型训练 24 小时后(其计算量 FLOPs 与 GPT-3 Small(12.5 亿参数)相当,仅为 GPT-3 的 1/1000),在 MMLU 数据集上可取得 40 多分,在 ARC-Easy 数据集上可取得 70 多分,在 GSM8K 数据集上可取得 20 多分。


卡帕西的目标是将这套完整的 “强基准” 工具链整合到一个逻辑连贯、极简、易读、可修改性强、极适合分支开发(forkable)的代码仓库中。“nanochat 将成为 LLM101n 课程(目前仍在开发中)的核心项目。我认为它还有潜力发展成一个研究工具框架或基准测试工具,就像之前的 nanoGPT 一样。”

据其透露,目前这个项目绝非最终版本,既未完成全面调优,也未进行性能优化,但它的整体框架已足够完善,可以发布到 GitHub 上,后续所有模块都能在社区中进一步改进。并且,卡帕西称,实际上 nanochat 还有不少容易实现的优化点。

纯手写 8000 行代码,

“Agent 帮不上忙”

整个项目总共只有约 8000 行代码,但卡帕西强调“代码结构相当清晰”。并且,这个代码仓库基本上完全是卡帕西手写的 , 也就用了个 Tab 键自动补全功能。

“我之前试过几次用 Claude 或者 Codex 的 Agent 来辅助,但效果都特别差,到头来反而帮不上忙;可能是因为这个仓库的代码风格和功能,跟这些工具训练数据里的常规代码偏差太大了吧。”卡帕西表示。

谈及 nanochat 的模型架构,卡帕西介绍,整体类似 Llama 模型,结构上更简洁一些,同时借鉴了 modded-nanoGPT(改进版 nanoGPT)的部分设计思路。

他尝试为该规模的模型确定一个可靠的基准架构,具体如下:

  • 稠密 Transformer(无稀疏结构)

  • 旋转位置编码(Rotary Embeddings),不使用其他位置编码

  • QK 归一化(QK Norm,对查询向量 Q 和键向量 K 进行归一化)

  • 嵌入层(embedding)与解嵌入层(unembedding)权重不共享

  • 对词元嵌入(token embedding)结果进行归一化

  • 多层感知机(MLP)中使用 relu 平方(relu²)激活函数

  • 根均方归一化(RMSNorm)中不包含可学习参数

  • 线性层(linear layers)中不使用偏置项(biases)

  • 多查询注意力(Multi-Query Attention, MQA)

  • 对数概率软截断(logit softcap,限制 logit 数值范围以稳定训练)

nanochat 的优化器采用 Muon+AdamW 组合,该设计很大程度上参考了 modded-nanoGPT。据悉,目前卡帕西有一个待办项:尝试通过优化 Adam 的学习率(例如为不同模块设置专属学习率),来移除对 Muon 的依赖,但目前他还没有投入足够精力去做这件事。

网友:喜提机器

学习工程师头衔

除了 Github,这次发布的 nanochat 在社交平台的热度也非常高。

“一直喜欢 Nano 系列项目!这套极简的端到端训练 / 推理工具链,一定会给众多机器学习学习者和科研人员带来深远影响。”一位网友说道。

也有网友表示,“对我个人而言,这个代码仓库是一份超棒的未来学习资料 —— 不管是理解基于 Rust 的底层深度学习实现,还是(更基础的)Python 深度学习开发,都很有帮助。”同时,他指出,“要是现在每个人都能借助这个仓库,用最少的精力训练出自己的大语言模型(LLM),那 Anthropic、OpenAI 这类公司的技术优势不就被削弱了吗?毕竟市面上有很多优秀的工程师,只要有足够的资源,他们完全有可能训练出更强大的大语言模型。”

还有人指出,“我认为这个代码仓库最大的受众是科研人员。很多人可能都有改进大语言模型(LLM)的想法,但要把想法落地成完整的实现,不仅需要投入大量精力,最终效果还充满不确定性。而现在,我们有了这样一套现成的工具流程,大家可以直接用它来做实验。以前只是‘如果能这样做会怎么样?’ 的空想,现在变成了 ‘我下周末就能试着把这个想法实现出来’ 的切实行动。”

甚至有网友开玩笑道,“跑完这个之后,我肯定要在简历上加上‘机器学习工程师’这个头衔。”

https://x.com/karpathy/status/1977755427569111362

https://github.com/karpathy/nanochat

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

阿里云、字节、小红书技术专家同台,深度对话 AI 时代可观测性的“智”变与“智”控之道。扫码预约直播。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本预测,未来20年亚洲最发达的“四座城市”,我国几座榜上有名

日本预测,未来20年亚洲最发达的“四座城市”,我国几座榜上有名

牛牛叨史
2024-07-19 23:32:16
马杜罗被“绑架”到美国,彻底打脸国内的某些军事专家

马杜罗被“绑架”到美国,彻底打脸国内的某些军事专家

微评社
2026-01-05 11:17:53
2026年中国最暴利的生意!!很多人竟然不知道!

2026年中国最暴利的生意!!很多人竟然不知道!

水木然
2026-01-03 22:23:39
法国、德国、英国、意大利、波兰、西班牙和丹麦欧洲7国领导人联合声明:格陵兰岛属于其人民

法国、德国、英国、意大利、波兰、西班牙和丹麦欧洲7国领导人联合声明:格陵兰岛属于其人民

每日经济新闻
2026-01-06 23:57:42
省委书记接见战斗英雄,突然拔枪指向对方:你是个冒牌货!

省委书记接见战斗英雄,突然拔枪指向对方:你是个冒牌货!

春风秋雨
2026-01-06 21:35:03
邮报:曼联若请回索帅证明他们缺乏战略,无法摆脱恶性循环

邮报:曼联若请回索帅证明他们缺乏战略,无法摆脱恶性循环

云隐南山
2026-01-07 10:18:04
看不到美女玉足了!知名《黑神话》3D艺术师官宣停更

看不到美女玉足了!知名《黑神话》3D艺术师官宣停更

游民星空
2026-01-06 18:42:09
彭总养大的儿子,22岁当上师长,毛泽东说他必反,彭总不信

彭总养大的儿子,22岁当上师长,毛泽东说他必反,彭总不信

鹤羽说个事
2026-01-06 11:11:19
鹿晗出轨事件升级?疑扒出他曾多次被曝出轨,细节图多处吻合

鹿晗出轨事件升级?疑扒出他曾多次被曝出轨,细节图多处吻合

观察鉴娱
2026-01-07 09:47:52
可以躺着赚钱的茅台,为何要和分销商彻底说拜拜?

可以躺着赚钱的茅台,为何要和分销商彻底说拜拜?

BT财经
2026-01-07 07:00:03
TVB典礼上:陈自瑶真空漏半球,人妻味好浓,秒了不结婚的佘诗曼

TVB典礼上:陈自瑶真空漏半球,人妻味好浓,秒了不结婚的佘诗曼

嫹笔牂牂
2026-01-06 07:13:33
深圳卓悦中心就KKV相关事件发布说明

深圳卓悦中心就KKV相关事件发布说明

深圳晚报
2026-01-06 08:08:10
人生建议:把羽绒服换成它!更轻、更暖、还能水洗!

人生建议:把羽绒服换成它!更轻、更暖、还能水洗!

果壳
2026-01-06 16:08:36
1月6日俄乌最新:库皮扬斯克光复以来最大的胜利?

1月6日俄乌最新:库皮扬斯克光复以来最大的胜利?

西楼饮月
2026-01-06 16:11:48
阳性!女孩柬埔寨流浪细节:被关了几天,从事工作曝光,拒绝回国

阳性!女孩柬埔寨流浪细节:被关了几天,从事工作曝光,拒绝回国

瓜汁橘长Dr
2026-01-07 10:00:49
一旦开战中国必败?我国著名院士批主战派,要懂得甲午战争的惨败

一旦开战中国必败?我国著名院士批主战派,要懂得甲午战争的惨败

文史旺旺旺
2025-11-14 20:30:09
田朴珺与王石离婚,王思聪发声引发热议!

田朴珺与王石离婚,王思聪发声引发热议!

新冲浪青年
2026-01-05 19:23:02
美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

碳基生物关怀组织
2026-01-03 23:30:35
年薪50万被妻子嫌弃后续:丈夫身份曝光,工资全上交,挨骂是日常

年薪50万被妻子嫌弃后续:丈夫身份曝光,工资全上交,挨骂是日常

鋭娱之乐
2026-01-04 19:58:22
中国财政供养人员达6846万?结构失衡才是财政压力的核心

中国财政供养人员达6846万?结构失衡才是财政压力的核心

流苏晚晴
2025-12-04 19:27:08
2026-01-07 11:00:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1237文章数 108关注度
往期回顾 全部

科技要闻

马斯克杀疯了!xAI官宣200亿美元融资

头条要闻

李文荣被公诉:泄露尚未公开企业重组信息 搞权色交易

头条要闻

李文荣被公诉:泄露尚未公开企业重组信息 搞权色交易

体育要闻

全明星次轮票数:东契奇票王 詹皇超KD升西部第8

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

茅台为何要和分销商彻底说拜拜?

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

本地
健康
数码
游戏
家居

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

这些新疗法,让化疗不再那么痛苦

数码要闻

联想官宣6月推SteamOS版Legion Go 2掌机

小团体闹麻了!《黎明行者》称本作吸血鬼会组团争斗

家居要闻

宁静不单调 恰到好处的美

无障碍浏览 进入关怀版