网易首页 > 网易号 > 正文 申请入驻

别吹Python了,大模型训练真香还得靠C++

0
分享至

我真服了。每次打开某乎、某面,一堆人吹“Python永远的神”“AI开发非Python莫属”。我只想说:你们是不是只会调个接口?

跑大模型的训练框架确实用Python写,但底层那套能让GPU满负载跑的算子,清一色C++。

今天就来说说,为什么你训练的模型又慢又贵——大概率是没搞懂C++在AI这盘棋里到底干了什么。



没有C++,你的大模型训练就是空转

很多人不知道一个扎心的事实:

PyTorch、TensorFlow这些框架在执行model.train()的时候,背后90%的时间都在跑C++和CUDA代码。

那些矩阵乘法、卷积、激活函数,Python只是做了个“指挥官”的角色——喊一声“开始”,真正往前冲的是C++编译出来的机器码,直接在GPU上跑。

当年我在优化一个推理服务的时候,Python那层怎么改都降不下来延迟,后来直接重写了算子融合逻辑,延迟从15ms砍到3ms。离谱吧?

为什么差距这么大?因为Python解释器那一层开销,在毫秒级的推理任务里就是灾难。

一个简单的for循环遍历张量,Python慢C++几十倍,这是常识,但很多人就是选择性忽略。




真正的高手都在抠“算子融合”

再说个反常识的:

很多人以为写AI代码就是搭积木,实际上性能瓶颈全藏在“算子”里。

举个例子。你写一个简单的y = relu(A @ x + b),听起来就三件事:矩阵乘、加法、激活函数。

但如果你老老实实分别调用三个算子——数据从显存读到寄存器,写回去,再读出来,再写回去……来回折腾三次,带宽全浪费了。

C++配合CUDA能干吗?写一个融合算子,一条指令把矩阵乘、加法、ReLU全干完。

数据不用来回搬,一次加载、三次计算、一次写回。

这就好比你点外卖:让骑手跑三趟送三样东西,还是让骑手一次性全拿来?训练大模型时,这种操作一天要跑几万亿次,差距可想而知。

模板元编程更狠——编译期就把算子形状、数据类型、循环展开策略全定死,运行时零开销。Python能做到吗?做不到。



我当年也栽过大跟头

说句暴露年龄的话,我刚开始做AI优化的时候,也迷信过“Python够用了”。

第一次接触大模型推理,用纯Python+NumPy写了个demo,单次推理1.2秒,领导直接说我这不是在写代码,是在写PPT。

后来导师甩给我一份手写C++的BERT推理代码,我看了一周才看懂那些模板元编程的骚操作——编译期就把模型结构展开,运行时连虚函数表都不查。

跑起来之后,35毫秒。你知道我当时什么心情吗?想把前面写的代码全删了。

很多人踩坑,不是能力不够,是压根不知道C++在AI这层能这么玩。

说了这么多,我想表达什么?

不是让你抛弃Python。Python写模型、做实验、快速迭代,确实香。

但如果你想做大模型训练优化、推理引擎、算子库、AI编译器这些真正“卡脖子”的底层基础设施——C++是你绕不过去的坎。

Kernel融合、显存复用、异步流、零拷贝……这些降延迟提吞吐的关键技术,全是C++的领地。

ChatGPT背后的推理引擎用的是C++,TensorRT是C++,TVM也是C++。这还不够说明问题吗?

互动时间:
你写AI代码的时候,C++用得怎么样?有没有被Python性能坑过的经历?评论区聊聊,或者说说你想了解C++的哪块——算子优化、内存管理、还是CUDA编程?我下次接着聊。

点赞过5000,我把我当年手写C++算子的踩坑笔记整理出来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

李晚书
2026-05-06 13:21:59
沪苏浙皖共同出资,长三角基础研究联合基金将正式推出

沪苏浙皖共同出资,长三角基础研究联合基金将正式推出

上观新闻
2026-05-06 21:14:04
全国大清查全面铺开!聚焦两大领域,3000元即立案,查到必重罚!

全国大清查全面铺开!聚焦两大领域,3000元即立案,查到必重罚!

职场资深秘书
2026-05-05 18:20:53
丢了7年的手机突然发回定位 还自动拍下了使用者的照片 失主:已经成功要回了手机

丢了7年的手机突然发回定位 还自动拍下了使用者的照片 失主:已经成功要回了手机

闪电新闻
2026-05-06 12:58:59
河南酒神醉狼去世,年仅46岁,每天三四瓶,家贫如洗留下两个女儿

河南酒神醉狼去世,年仅46岁,每天三四瓶,家贫如洗留下两个女儿

千言娱乐记
2026-05-06 15:32:05
空腹抽血,喝水算不算破坏?很多人意外!检验科医生权威解答

空腹抽血,喝水算不算破坏?很多人意外!检验科医生权威解答

环球网资讯
2026-05-06 13:46:09
5月6日俄乌最新:川普突然改了口风

5月6日俄乌最新:川普突然改了口风

西楼饮月
2026-05-06 18:40:09
因有乘客在火车“吸烟处”吸烟,女子向列车长投诉+威胁要打12306

因有乘客在火车“吸烟处”吸烟,女子向列车长投诉+威胁要打12306

可达鸭面面观
2026-05-06 17:30:32
破防!女子五一旅游偶遇丈夫辛苦拉货挣钱养家!

破防!女子五一旅游偶遇丈夫辛苦拉货挣钱养家!

捣蛋窝
2026-05-06 12:51:08
广东为何8分输北京?赛后胡明轩毫不客气说出原因,说的非常实在

广东为何8分输北京?赛后胡明轩毫不客气说出原因,说的非常实在

谭颞爱搞笑
2026-05-07 00:49:19
“出海”与“入海”:海尔全球化布局背后的战略定力与长期主义

“出海”与“入海”:海尔全球化布局背后的战略定力与长期主义

智谷趋势
2026-04-30 18:58:41
不简单!工程师徐泽伟欧洲度假被抓,后被引渡美国,大量隐情曝光

不简单!工程师徐泽伟欧洲度假被抓,后被引渡美国,大量隐情曝光

谭谈社会
2026-05-04 06:56:56
特朗普以为访华稳了,派心腹摸底后漫天要价,点名向中方要一个人

特朗普以为访华稳了,派心腹摸底后漫天要价,点名向中方要一个人

兰妮搞笑分享
2026-05-06 15:12:32
芭提雅海湾8名外国游客不雅行为引争议,当地民众表示强烈不满

芭提雅海湾8名外国游客不雅行为引争议,当地民众表示强烈不满

曼谷陈大叔
2026-05-06 15:05:34
苹果新品上架,5月8日,正式开售

苹果新品上架,5月8日,正式开售

科技堡垒
2026-05-06 12:16:23
DeepSeek预测:未来普通家庭升值最快的5项资产,越早布局越好

DeepSeek预测:未来普通家庭升值最快的5项资产,越早布局越好

洞见
2026-05-06 10:00:15
泽连斯基表示,俄罗斯违反乌克兰的停火协议,将会遭到应有的惩罚

泽连斯基表示,俄罗斯违反乌克兰的停火协议,将会遭到应有的惩罚

山河路口
2026-05-06 18:55:30
荒唐至极!欧洲议会勒令废除普通话法案?中国主权绝不容外人置喙

荒唐至极!欧洲议会勒令废除普通话法案?中国主权绝不容外人置喙

行者聊官
2026-05-06 14:16:30
上海险胜1-0山东:怀特塞德23+9 张镇麟14分王哲林遭惊天骑扣

上海险胜1-0山东:怀特塞德23+9 张镇麟14分王哲林遭惊天骑扣

醉卧浮生
2026-05-06 21:34:51
三峡“无缝大坝”缔造者落马!功勋满身,却没管住心中一道缝

三峡“无缝大坝”缔造者落马!功勋满身,却没管住心中一道缝

甜柠聊史
2026-03-25 18:43:05
2026-05-07 03:11:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
554文章数 8382关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

艺术
游戏
手机
本地
旅游

艺术要闻

震撼!三星中国总部大楼高260米,雄踞北京CBD!

LPL第二赛段:滔搏排名迅速滑落!JDG三局战胜TES

手机要闻

“iPhone Ultra”或将成为业内最易维修的折叠屏手机

本地新闻

用青花瓷的方式,打开西溪湿地

旅游要闻

“旅游兴趣班”开启文旅经济新赛道

无障碍浏览 进入关怀版