网易首页 > 网易号 > 正文 申请入驻

DeepSeek发布V3.1版本,为国产新一代芯片做好准备

0
分享至


中国AI明星企业DeepSeek发布了其旗舰大语言模型的更新版本,该公司声称这一新版本已针对即将推出的新一代国产芯片进行了优化。

据DeepSeek介绍,该公司使用UE8M0数据类型训练了新的V3.1模型,这是对英伟达等公司已支持的FP8格式的扩展。在微信评论中,该组织澄清这一改变是为了迎接新一代芯片。"UE8M0 FP8是为即将发布的下一代国产芯片而设计的",该公司写道。

较低精度的数据类型提供了多项优势,包括减少内存消耗,提高推理和训练的吞吐量。然而值得注意的是,DeepSeek此前已在使用FP8,具体是E4M3类型。因此,切换到UE8M0似乎更多是为了兼容性而非效率提升。

DeepSeek并未透露其新模型所适配芯片的来源,但据报道,这家AI初创公司一直在与华为密切合作,使用其昇腾系列神经处理单元(NPU)进行训练和推理。

华为的昇腾910C为其CloudMatrix机架系统提供动力,但原生不支持FP8,这表明这家IT巨头可能正在开发更强大的加速器。

上周有报道称,DeepSeek曾尝试在华为昇腾加速器上训练其下一代R2模型,但遇到困难后改用英伟达H20加速器。据悉DeepSeek目前正在评估华为加速器的推理性能。

目前尚不清楚所谓的R2是否指本周发布的V3.1模型或即将推出的模型。

实际上并非全新模型

DeepSeek V3.1实际上并非全新模型,而是从早期V3检查点训练而来。

尽管如此,这个大语言模型确实承诺了显著改进。在V3.1中,DeepSeek不再区分"思考型"和"非思考型"模型。V3.1在单一模型中支持两种范式,并使用一对聊天模板在两者间切换。因此,该公司的聊天机器人界面现在不再提及R1。

统一模型同时支持推理和非推理输出的想法并非新颖。阿里巴巴今年早些时候尝试过类似做法,但发现该功能降低了其Qwen 3模型的质量后放弃了这一想法。

至少在基准测试中,DeepSeek的V3.1似乎避免了这个问题。与V3相比,该版本的非思考模型在各项指标上都取得了显著提升。

启用思考功能后,模型的提升较为温和。然而这并未完全说明全貌,DeepSeek指出该模型现在需要更少的思考Token就能得出答案,这应该有助于降低模型服务成本。

说到Token,DeepSeek已将其上下文窗口(可理解为短期记忆)的Token数量从65,536提升至131,072。虽然这是显著改进,但仍落后于Qwen3等其他中国模型,后者可处理百万级Token上下文。

DeepSeek还声称在工具和函数调用能力方面取得重大进展,这对于需要实时检索外部工具和数据的智能体AI工作负载至关重要。

例如,在针对自主浏览器使用任务的Browsecomp基准测试中,DeepSeek v3.1取得了30分的成绩,而R1的5月版本仅为8.9分。

除了通过聊天机器人服务和API端点提供访问外,DeepSeek还在Hugging Face和ModeScope上提供了基础模型和指令调优模型的权重下载。

Q&A

Q1:DeepSeek V3.1有什么新特点?

A:DeepSeek V3.1最大特点是使用UE8M0数据类型进行优化,专门为即将发布的国产芯片设计。同时它统一了"思考型"和"非思考型"模型功能,可在单一模型中通过聊天模板切换两种模式,并将上下文窗口从65,536个Token提升至131,072个。

Q2:为什么DeepSeek要切换到UE8M0数据类型?

A:DeepSeek切换到UE8M0主要是为了兼容即将推出的新一代国产芯片。虽然公司此前已使用FP8的E4M3类型,但UE8M0是专门为下一代国产芯片设计的,这表明可能有更强大的国产加速器即将问世。

Q3:DeepSeek V3.1性能如何?

A:在基准测试中,V3.1的非思考模式相比V3在各项指标上都有显著提升。在工具调用方面进步明显,如在Browsecomp浏览器任务测试中得分30分,远超此前R1版本的8.9分。同时模型需要更少思考Token就能得出答案,有助降低服务成本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
绿洲珠宝行血案,浙江6任厅长追凶22年,抓到嫌犯后大家都愣住了

绿洲珠宝行血案,浙江6任厅长追凶22年,抓到嫌犯后大家都愣住了

崖边行
2025-06-27 21:11:22
波兰还是不听劝,中欧班列考验中国立场

波兰还是不听劝,中欧班列考验中国立场

家传编辑部
2025-09-18 12:28:52
陕西65岁阿姨感染艾滋,探查原因后,医生:这个细节被忽视了

陕西65岁阿姨感染艾滋,探查原因后,医生:这个细节被忽视了

青青会讲故事
2025-04-03 17:10:48
俄媒:中国可以让金砖国家在高科技领域摆脱对美国的技术依赖

俄媒:中国可以让金砖国家在高科技领域摆脱对美国的技术依赖

俄罗斯卫星通讯社
2025-09-19 15:08:31
“汽油用量”开始暴跌,数据出来很多人惊了,未来油价会大降吗?

“汽油用量”开始暴跌,数据出来很多人惊了,未来油价会大降吗?

四象八卦
2025-09-16 04:58:16
“七月三十5不做,家人不富也安康”,指哪5不做?别忘了告诉家人

“七月三十5不做,家人不富也安康”,指哪5不做?别忘了告诉家人

神牛
2025-09-19 12:17:22
女优金松季步上演大乱战!男优21根棒子排队等服务

女优金松季步上演大乱战!男优21根棒子排队等服务

葫芦哥爱吐槽
2025-09-20 02:51:03
著名歌手广西街头卖水果,左耳听力只剩6成,曾和赌王女儿恋爱4年

著名歌手广西街头卖水果,左耳听力只剩6成,曾和赌王女儿恋爱4年

小彭聊社会
2025-09-07 02:28:02
冯绍峰忙恋爱!赵丽颖上海亲子游,想想坐行李箱萌态十足,画面温馨

冯绍峰忙恋爱!赵丽颖上海亲子游,想想坐行李箱萌态十足,画面温馨

瞎说娱乐
2025-09-18 14:59:49
樊振东:我能和队里的每位队员建立友谊,球队中有强烈的信任与团结

樊振东:我能和队里的每位队员建立友谊,球队中有强烈的信任与团结

懂球帝
2025-09-19 13:53:26
一种新型的异性关系,在中年男女间悄然流行:你知我心,我懂你意

一种新型的异性关系,在中年男女间悄然流行:你知我心,我懂你意

小小包工头阿汾
2025-09-15 07:29:35
特朗普对华示好背后:身体顾虑与面子困境的双重枷锁

特朗普对华示好背后:身体顾虑与面子困境的双重枷锁

大国纪录
2025-09-19 23:00:14
“我被我妈按头一起观赏小黄片”,29个女孩的AV故事会

“我被我妈按头一起观赏小黄片”,29个女孩的AV故事会

夜听訫语
2022-01-04 12:41:28
国民党新主席票数领先!张亚中全岛通告,两岸关系再升级

国民党新主席票数领先!张亚中全岛通告,两岸关系再升级

平祥生活日志
2025-09-19 09:03:00
韩国网友评价中国年轻人正在患上“首尔病”……

韩国网友评价中国年轻人正在患上“首尔病”……

奋斗在韩国
2025-09-18 19:52:44
广东初二男孩被5名同学围殴,父亲抡起铁棍将其中一名活活打死,判决结果出来后,网友不淡定了…

广东初二男孩被5名同学围殴,父亲抡起铁棍将其中一名活活打死,判决结果出来后,网友不淡定了…

谭老师地理工作室
2025-03-11 12:58:06
伤风败俗!62岁宋丹丹玩游戏太投入多次走光露内裤,节目组打马赛克

伤风败俗!62岁宋丹丹玩游戏太投入多次走光露内裤,节目组打马赛克

扒星人
2025-09-18 09:50:30
解放军反其道而行之,透露“收台”计划?逐字分析后,台当局慌了

解放军反其道而行之,透露“收台”计划?逐字分析后,台当局慌了

坐景观天
2025-09-19 01:32:14
“重大调整”!中泰签署S26T潜艇项目补充协议:中国产发动机替代德国产品

“重大调整”!中泰签署S26T潜艇项目补充协议:中国产发动机替代德国产品

环球网资讯
2025-09-19 10:32:41
当妻子第六次加班到深夜时,我递上离婚协议:签吧!别偷偷摸摸了

当妻子第六次加班到深夜时,我递上离婚协议:签吧!别偷偷摸摸了

星宇共鸣
2025-09-10 17:33:39
2025-09-20 03:40:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
14154文章数 49657关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

手机
游戏
教育
亲子
军事航空

手机要闻

小米 17 Pro 系列手机用上 L 型电池,背屏斥资 10 个亿打造

和三月七一样爱自拍,还恶趣味让叽米加班,长夜月越来越神秘了

教育要闻

TTS新传论文带读:气候传播?南方转向?这俩可以合在一起说嘛?

亲子要闻

每年一次性发放!育儿补贴新规出台

军事要闻

卫星图像显示以军坦克集结加沙城周围

无障碍浏览 进入关怀版