![]()
做产品的都懂,核心功能依赖第三方SDK是什么滋味——表面上跑得挺顺,关键时刻人家接口一掐,你连夜改需求的样子真的很狼狈。国产智算这几年,差不多就是这个处境。
![]()
现在有个新进展:全国首个万卡级、全栈自主可控的智算集群正式点亮。注意定语,"全栈自主可控"五个字,意味着从芯片、框架到调度系统,没再用别人的"鸡"来孵自己的"蛋"。
![]()
万卡是什么概念?大概相当于把一万张顶级显卡捆在一起干活,训练一个大模型的时间从"泡杯咖啡等三天"压缩到"下楼买杯咖啡回来"。之前这种规模的集群,要么用海外芯片,要么在软件层做适配妥协。这次是从硅片开始自己写剧本。
当然,点亮只是开机自检通过,离跑稳跑顺还有距离。就像你新搭了一套微服务架构,服务注册中心能ping通了,不代表双十一扛得住。但至少证明了一件事:这条链路上最难的几颗钉子,有人拔掉了。
有个细节挺有意思。集群上线当天,内部测试跑的是国产大模型的训练任务——不是跑分,是真干活。用行话说,这叫"吃自己的狗粮"。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.