来源:市场资讯
(来源:半导体前线)
4月24日,备受市场期待的DeepSeek-V4预览版本正式上线并同步开源。该大模型分为Pro(专家模式)和Flash(快速模式)两个版本,均拥有百万字超长上下文,且同时支持非思考模式与思考模式。
据介绍,DeepSeek-V4-Pro的知识储备和推理能力优秀。其在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1;在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。
相比DeepSeek-V4-Pro,DeepSeek-V4-Flash在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。而由于模型参数和激活更小,相较之下V4-Flash能够提供更加快捷、经济的API服务。
在具体性能上,两个版本的定位不同, V4-Pro性能比肩顶级闭源模型,而V4-Flash是更快捷高效的经济之选。
从价格看,DeepSeek 提到,V4-Pro每百万tokens输入是1元,输出是12元,V4-Flash每百万tokens输入是0.2元,输出是2元。“太普惠了,还是那个DeepSeek。”有网友感慨。
![]()
值得一提的是,业界一直在关注DeepSeek-V4是否会使用国产算力,从DeepSeek推文来看确实是与华为昇腾合作。
华为计算官微也发布消息,昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。
昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理部署。同时,昇腾A3超节点系列产品也全面适配,同时为便于用户快速微调,提供了基于昇腾A3超节点的训练参考实现。
DeepSeek在其推文中也提到,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。
在这次更新前不久,DeepSeek还传出了首次启动外部融资的风声。有报道称,DeepSeek正在以超100亿美元(约合人民币682亿元)的估值,计划募集不少于3亿美元(约合人民币20亿元)资金。对于长期拒绝外部资本、强调独立性的DeepSeek而言,此举被视为一种战略上的重大转向。
据悉,通过引入外部资金,DeepSeek将有更多计算资源开发新模型,同时能提供更具竞争力的薪酬来防止顶尖研究员流失。这次V4并没有发布多模态版本,也有猜测是由于算力和资金的不足。多模态已成为众多模型厂商的标配,DeepSeek至今还未切入,从这个意义上看融资确实迫在眉睫。
资料显示,DeepSeek成立于2023年,由量化资管公司幻方量化的创始人梁文锋创立。该公司一直以开源模型为核心,在商业化方面没有太多动作,其创始人梁文锋也曾多次被报道“因担心外部投资者会干预公司决策,而拒绝外部融资”。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.