2025年1月27日,DeepSeek又崩了,热度不减。
微博热搜:第一
X(Twitter):
苹果App Store(美区):
苹果 App Store(中国区):
英伟达大跌:
DeepSeek 训练成本大降,利空英伟达 ?
训练成本 是 DeepSeek 的一大优势。
在其12月底发布的 DeepSeek-V3中,参数量为671B,激活参数为37B,使用的预训练 token 量为14.8万亿。其多项评测成绩超越了阿里的 Qwen2.5-72B 和 MetadeLlama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
前 OpenAI 联创、知名AI科学家 AndrejKarpathy 表示:DeepSeek-V3整个训练过程仅用了不到280万 GPU 小时,相比之下,Meta 旗下顶尖的开源模型 Llama-3405B 的训练时长是3080万 GPU 小时。如果 DeepSeekV3的优良表现能够得到广泛验证,那么这将是资源有限情况下对研究和工程的一次出色展示。若从成本上进行更直观的对比,假设 H800的租金为每 GPU 小时2美元,DeepSeek-V3的 总训练成本仅为600万美元不到,是 Llama-3405B 超6000万美元训练成本的十分之一不到。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.