网易首页 > 网易号 > 正文 申请入驻

4小时写诗,12小时超越GPT-2,AI大牛卡帕西开源“ChatGPT平替”!

0
分享至


智东西
编译 王涵
编辑 漠影

智东西10月14日消息,昨夜,前特斯拉人工智能与自动驾驶视觉总监、OpenAI研究员安德烈·卡帕西(Andrej Karpathy)开源nanochat,号称可以只用不到100美元(约合人民币711.5元)训练出“简易版ChatGPT”,一经发布在GitHub上就获得了5.6k星。


▲nanochat Github主页(来源:Github)

开源地址:

Github:https://github.com/karpathy/nanochat

与其早期只涵盖预训练的nanoGPT不同,nanochat是一个极简的、从零构建的全栈训练/推理流程,用最精简的依赖代码库实现了“简易版ChatGPT”。


▲安德烈·卡帕西(Andrej Karpathy)推文截图(来源:X)

卡帕西在评论区中回复称,nanochat的基本架构类似Meta的Llama,但有所简化,并吸收了modded-nanoGPT的一些改进。

他还透露,截至指令微调(SFT)阶段,整个训练耗时3小时51分钟,总成本为92.4美元(约合人民币657.4元),“这样我们甚至还能剩下8美元买个冰淇淋犒劳自己。”他开玩笑道。

值得注意的是,由于目前对强化学习(RL)的支持尚不完善,卡帕西称他并未将其计入总运行时间。

也就是说,开发者只需启动云GPU实例,运行单个脚本,只需不到100美元(约合人民币711.5元),最快4小时,就能训练出可进行简单对话、创作故事诗歌、回答基础问题的“简易版ChatGPT”

训练约12小时,模型即可在评估模型推理能力、知识基础等基础能力的CORE指标上超越GPT-2。卡帕西还透露,当投入提升至约1000美元(约合人民币7114.7元),训练41.6小时后,模型表现还将显著提升,能够解决基础数学/编程问题并通过选择题测试。

例如,深度为30的模型训练24小时(相当于GPT-3 Small 125M的计算量,约为GPT-3的千分之一)后,在多任务的语言理解基准MMLU得分超40分,在简单常识推理任务ARC-Easy超70分,在数学推理能力基准测试GSM8K中获得超20分的成绩。


▲nanochat性能表格(来源:Github)

这个有着8304行代码的项目实现了以下功能:

1、使用新的Rust实现训练分词器;

2、在FineWeb数据集上预训练Transformer LLM,并通过CORE指标多维度评估;

3、使用SmolTalk的用户-助手对话数据、选择题数据和工具使用数据进行中期训练;

4、进行指令微调,在常识选择题(ARC-E/C、MMLU)、数学(GSM8K)、代码(HumanEval)等基准上评估聊天模型;

5、可选使用“GRPO”算法在GSM8K数据集上进行强化学习;

6、通过带KV缓存的引擎实现高效推理,支持简单预填充/解码和工具调用(轻量级沙箱中的Python解释器),可通过CLI或类ChatGPT网页界面交互;

7、生成单页Markdown评估报告,以游戏化方式总结全流程。

在原推文的评论区中,卡帕西还给出了一个nanochat与用户对话的案例。在这个对话中,基础版nanochat已经实现AI聊天机器人的对话功能,并且可以根据要求撰写诗歌。


▲nanochat功能演示(来源:X)

在卡帕西的推文下,网友们发出一致好评,有人称“非常受到启发”,甚至说“这个人(指卡帕西)简直是个传奇。”


▲网友评论节选(来源:X)

还有网友已经做出了nanochat的可交互实时代码图谱,能够更加直观地探索这个代码库:

▲nanochat实时代码图谱(来源:X)

结语:nanochat为AI开发成本控制路径提供参考

nanochat项目的推出,为AI模型开发的成本控制提供了新的参考。该项目证明了,在适当的架构设计和流程优化下,以100美元级别的成本实现基础对话AI功能具备技术可行性。

虽然当前版本在性能上仍与商用大模型存在差距,但其展现的性价比优势,为AI技术在更广泛场景中的应用拓展了可能性。随着开源社区对该项目的持续优化,这种高效开发模式或将为AI技术普及带来新的推动力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
国防部:菲方侵权挑衅只会遭到更加坚决应对

国防部:菲方侵权挑衅只会遭到更加坚决应对

界面新闻
2026-03-26 16:00:27
朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

唠叨说历史
2026-03-18 13:40:57
TVB宣布拟改名!以后要叫你...

TVB宣布拟改名!以后要叫你...

东莞潮事儿
2026-03-26 12:32:15
美以军事打击已致伊朗243名师生丧生

美以军事打击已致伊朗243名师生丧生

新京报
2026-03-25 15:05:13
全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

红星新闻
2026-03-25 23:19:21
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
姐弟失散33年终团圆:认亲第二天闹掰,弟弟撂狠话,直播片段曝光

姐弟失散33年终团圆:认亲第二天闹掰,弟弟撂狠话,直播片段曝光

刘哥谈体育
2026-03-26 11:47:19
自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

老马拉车莫少装
2026-03-26 10:24:28
老板娘的丝袜都破了,我要不要告诉她买一双?

老板娘的丝袜都破了,我要不要告诉她买一双?

太急张三疯
2026-03-26 12:50:15
沙特实战封神!中国“天盾”21发21中,美方2亿美元系统差距在哪

沙特实战封神!中国“天盾”21发21中,美方2亿美元系统差距在哪

霁寒飘雪
2026-03-26 14:51:57
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
一名重大经济犯罪嫌疑人被押解回国

一名重大经济犯罪嫌疑人被押解回国

新华社
2026-03-26 15:00:03
深圳多处出现,一大批人都在偶遇!网友:“我都舍不得踩!”

深圳多处出现,一大批人都在偶遇!网友:“我都舍不得踩!”

深圳晚报
2026-03-26 10:20:44
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
海关总署署长孙梅君到广东调研

海关总署署长孙梅君到广东调研

证券时报
2026-03-26 13:26:01
朝鲜国运来了!中东大战,又是朝鲜闷声发大财?

朝鲜国运来了!中东大战,又是朝鲜闷声发大财?

北向财经
2026-03-24 22:17:38
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
2026-03-26 17:11:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11433文章数 117015关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
手机
数码
家居
公开课

艺术要闻

哪一座桥不是风景?

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版