网易首页 > 网易号 > 正文 申请入驻

DeepSeek R1升级,性能接近o3与Gemini,幻觉率大幅降低!

0
分享至

前言

AI模型卷进深水区:DeepSeek-R1-0528,不再追赶,而是在逼近上限,国产大模型的升级节奏,比我们预想得更凶猛。

就在大家都以为DeepSeek R1只是一个中规中矩的技术形象时,0528小版本的悄然放出,却展现了一个明显不同的走向。

这次它不是拼速度,而是重推理、讲深度,在复杂任务中硬啃思维链条,释放出国产模型真正有望冲击国际顶尖梯队的信号。

我们得先明确一点:DeepSeek-R1-0528不是换底座,它还是那个DeepSeek V3 Base,只是这次它在后训练阶段砸下了更大的算力筹码,代价是昂贵的,但回报也实实在在。

在AIME 2025数学推理测试中,新版准确率从70%跃升至87.5%,这个成绩背后的深意绝不能被表面数字所掩盖——它代表了国产模型第一次在极其严苛的逻辑任务中“站稳了脚”。

更有趣的是,它不是靠“猜得准”,而是实打实把平均解题token长度从12K提升到了23K。

这几乎等于思维深度翻了一倍,意味着模型在每一道题目上的“思考”都更加细致,逻辑链条更长,也更少“跳步”。

这背后不仅是算力的投入,更是训练逻辑的优化成果——DeepSeek没有简单堆砌模型参数,而是围绕“推理路径”做了大量系统性的调整,尤其是对幻觉率、结构写作、工具调用等方面的多维调优。

说到幻觉,这是很多中文大模型目前还无法根治的“老毛病”。

但0528版的R1对幻觉率的抑制已经达到了45%-50%,在资讯改写、摘要总结等场景中,能显著减少不靠谱内容。

这点对内容从业者来说是重大利好——你终于可以更大胆地用模型来协助写作而不怕“瞎编”。

但这次升级最让我感兴趣的,并不是R1模型本身,而是DeepSeek把这个思维链条提取出来,蒸馏进了另一个8B模型——DeepSeek-R1-0528-Qwen3-8B。

我们知道,小模型能不能“学会思考”一直是业内悬而未解的问题。DeepSeek的做法是,把R1的“思维轨迹”作为训练目标,迁移给Qwen3-8B。

这波操作让后者在AIME 2024中表现直逼23B的Qwen3-235B,而本身只有8B体积,这说明什么?说明小模型“不是不能思考”,只是它们以前没有受过“深度思考的熏陶”。

可以预见,这种思维链条的“知识迁移”在未来会成为训练轻量模型的标配,既省资源,又提高了智能密度。

从更高的视角看,DeepSeek-R1-0528代表着国产模型向“解释型AI”迈出关键一步。它不是一个黑箱输出工具,而是在努力让用户“看见”它的逻辑过程。

新版API支持Function Calling和Json Output,同时max_tokens也终于从“输出长度限制”进化成“全流程长度上限”的定义。这些改变看似细节,却意味着模型服务正逐步从“结果导向”向“过程透明”过渡。

重点来了,官方提供的上下文依旧为64K,但R1-0528的开源版本上下文长度已经扩展到128K。

这对需要处理复杂长文档、多轮上下文的任务极具吸引力,也说明DeepSeek开始在“模型体验”层面与国际大厂看齐。

我们得承认,在高端模型上,DeepSeek还未完全与o3、Claude 4并肩;但它的某些指标、特别是在数学和工具调用的表现上,已经实现局部追平。

它没有造出新“巨兽”,却用一次小版本,把国产模型的“推理极限”往前推进了一大截。

结语:

DeepSeek-R1-0528的意义,可能不会立刻显现。

但当我们回顾这段AI演进历史时,也许会发现,正是这种一次次“内功优化式”的小步升级,才构成了国产模型逐步拉近世界第一梯队的阶梯。

不是每次迭代都需要重做地基,关键是你有没有能力让旧体系里生出新火花。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
提前大选不到1周,日本两大在野党迅速抱团,高市选情一夜生变

提前大选不到1周,日本两大在野党迅速抱团,高市选情一夜生变

三毛看世界
2026-02-05 18:32:57
装不下去了吧?大S临终细节首次曝光,原来汪小菲没说错

装不下去了吧?大S临终细节首次曝光,原来汪小菲没说错

晓焎科普
2026-02-05 19:25:08
只差一场,米尔纳将追平巴里保持的英超历史出场纪录

只差一场,米尔纳将追平巴里保持的英超历史出场纪录

懂球帝
2026-02-06 01:22:40
辽宁教师乱象风波:整顿引发网络风暴,真相几何?

辽宁教师乱象风波:整顿引发网络风暴,真相几何?

文雅笔墨
2026-02-06 16:10:21
世界首个!中国正式强制禁止隐藏式门把手:明年1月1日起实施 特斯拉、小米等都要改了

世界首个!中国正式强制禁止隐藏式门把手:明年1月1日起实施 特斯拉、小米等都要改了

快科技
2026-02-05 16:10:46
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
霍金也被爱泼斯坦档案害惨了,都瘫痪成这样,真的还能玩女人吗?

霍金也被爱泼斯坦档案害惨了,都瘫痪成这样,真的还能玩女人吗?

我心纵横天地间
2026-02-05 19:14:54
洗白失败!葛斯齐曝猛料,韩国综艺实锤,去世一年的大S背了黑锅

洗白失败!葛斯齐曝猛料,韩国综艺实锤,去世一年的大S背了黑锅

观察鉴娱
2026-02-06 09:46:24
“家境差回去也只能玩手机”,大学生戳中父母痛处:穷就别提要求

“家境差回去也只能玩手机”,大学生戳中父母痛处:穷就别提要求

妍妍教育日记
2026-02-05 20:03:05
中共中央批准,开除林景臻党籍

中共中央批准,开除林景臻党籍

新京报
2026-02-06 10:43:07
恭喜!知名歌手官宣结婚

恭喜!知名歌手官宣结婚

广州生活美食圈
2026-02-05 11:40:10
林书成不再担任四川省政协副主席

林书成不再担任四川省政协副主席

极目新闻
2026-02-06 17:08:08
杭州联合农村商业银行被罚款1110万元

杭州联合农村商业银行被罚款1110万元

雷达财经
2026-02-06 16:53:03
放进冰箱变毒药,这7种食物千万不能放在冰箱里!尤其是第六种!

放进冰箱变毒药,这7种食物千万不能放在冰箱里!尤其是第六种!

路医生健康科普
2026-02-06 16:16:28
100元纸币,这种麒麟号码,1张价值58000元!

100元纸币,这种麒麟号码,1张价值58000元!

小陈收藏社
2026-02-01 14:14:44
世界5大禁片,全看完的人,心理素质堪比特种兵

世界5大禁片,全看完的人,心理素质堪比特种兵

i书与房
2026-01-26 15:07:05
富商将五箱茅台深埋地底,20年后才挖出来,打开箱子后富商愣住了

富商将五箱茅台深埋地底,20年后才挖出来,打开箱子后富商愣住了

二十一号故事铺
2024-09-25 07:00:12
卢伟:俱乐部杯给了年轻球员锻炼机会;目前队内气氛非常团结

卢伟:俱乐部杯给了年轻球员锻炼机会;目前队内气氛非常团结

懂球帝
2026-02-07 00:20:48
交易汇总+评级:湖人换来肯纳德 祖巴茨去步行者 字母莫兰特留队

交易汇总+评级:湖人换来肯纳德 祖巴茨去步行者 字母莫兰特留队

罗说NBA
2026-02-06 04:17:16
羽毛球亚锦赛:王正行复仇世界第11,国羽3-1中国台北晋级四强

羽毛球亚锦赛:王正行复仇世界第11,国羽3-1中国台北晋级四强

钉钉陌上花开
2026-02-06 20:38:09
2026-02-07 00:55:00
小8说科技 incentive-icons
小8说科技
商务请私
5747文章数 317关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

教育
时尚
手机
数码
本地

教育要闻

高考地理中的蒸散量

豆瓣8.5分,人美剧甜衣品好,小韩拍恋爱剧还是有两把刷子

手机要闻

荣耀600被曝光:6.57英寸+9000mAh±电池,友商拿什么打!

数码要闻

小米手表5先锋计划即将开启,解决手势失灵、闹钟不响等多项痛点

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

无障碍浏览 进入关怀版