网易首页 > 网易号 > 正文 申请入驻

DeepSeek R1幻觉率降低,用户喊话:想要R2

0
分享至

2025.05.29

本文字数:1440,阅读时长大约2分钟

导读:报告显示此前 R1模型幻觉率在21%左右。

作者 |第一财经 刘晓洁

在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强化、幻觉改善和创意写作更好等。

在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。

值得一提的是,DeepSeek提到,新版DeepSeek R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。

所谓幻觉即大模型的“胡说八道”,此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。

据SuperCLUE,推理模型的幻觉比非推理模型更显著,在他们的测评中推理模型的平均幻觉率为22.95%,非推理模型的平均幻觉率为13.52%。

除了幻觉方面的改善,官方介绍,新R1模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试(一个数学基准测试,用于模型在数学推理方面的能力)中,新版模型准确率由旧版的70%提升至87.5%。

此外,更新后的 R1 模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

在官方发文之前,众多测试表明R1新模型的代码能力有显著提升,在代码测试平台Live CodeBench中,其性能几乎媲美OpenAI重量级的o3-high模型。官方此次公告也提到,在前端代码生成、角色扮演等领域,模型的能力确实均有更新和提升。

在迭代路径上,DeepSeek表示,DeepSeek-R1-0528 仍然使用 2024 年12月所发布的DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。

本次R1新模型参数为 685B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。同时,与旧版本的R1保持一致,此次开源模型权重仍然统一采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

有趣的是,在X平台DeepSeek的官方评论区中,讨论的话题全都关于R2模型,“We want R2(我们想要R2模型)”,有用户评论称。业界对DeepSeek下一代的模型期待已久。

基于DeepSeek刚刚发布了更新,有用户猜测,“是否意味着我们暂时不会听到有关R2的消息?”也有用户调侃称,这一模型或许在开发中应该是R2,但是当他们发现在基准测试中没有超越OpenAI的o3 时,DeepSeek将其重新命名为R1的更新。

一向低调的DeepSeek并未对外界的猜测进行任何回应,基于R1是在V3模型的基础上训练的,或许我们会先等到V4模型的更新。无论如何,海内外大模型领域的基座模型大战还在继续,DeepSeek之后,谁会是下一家?

海外网友制作的梗图,对当前大模型领域的密集更新进行调侃

微信编辑| 苏小

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“老山第一杀手”向小平:31枪击毙30名敌人,打偏一枪遗憾终生

“老山第一杀手”向小平:31枪击毙30名敌人,打偏一枪遗憾终生

大运河时空
2026-02-05 06:00:03
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八星人
2026-01-21 15:14:26
李嘉诚不忍了!终于向巴拿马摊牌,真正靠山出现,美国高兴的早了

李嘉诚不忍了!终于向巴拿马摊牌,真正靠山出现,美国高兴的早了

完善法
2026-02-05 19:49:49
善恶终有报:疫情时对中国一毛不拔,却大方捐美国6亿,如今咋样

善恶终有报:疫情时对中国一毛不拔,却大方捐美国6亿,如今咋样

暮雨咋歇着
2026-02-06 00:45:48
《镖人》被《熊出没》超越,位列倒数第一,李连杰巨星地位不保了

《镖人》被《熊出没》超越,位列倒数第一,李连杰巨星地位不保了

影视高原说
2026-02-05 16:19:58
吹风机是大补,医生提醒:一个吹风机等于半个老中医!不要嫌弃

吹风机是大补,医生提醒:一个吹风机等于半个老中医!不要嫌弃

荆医生科普
2026-02-05 05:05:06
那些AV女演员,真的不怕家人看见吗?

那些AV女演员,真的不怕家人看见吗?

蔚蓝的珊瑚海
2026-02-06 02:34:52
女子用20g黄金打造新年美甲,称用自己穿戴甲定做的,最新回应:是真金,过年就要装一把

女子用20g黄金打造新年美甲,称用自己穿戴甲定做的,最新回应:是真金,过年就要装一把

扬子晚报
2026-02-04 22:40:57
时间的拓片:一种向后的前行

时间的拓片:一种向后的前行

疾跑的小蜗牛
2026-02-05 23:20:52
一天抹去三天弱反“成果”,国际白银现货价格再创新低

一天抹去三天弱反“成果”,国际白银现货价格再创新低

极目新闻
2026-02-06 06:49:24
Shams:快船将祖巴茨交易至步行者

Shams:快船将祖巴茨交易至步行者

懂球帝
2026-02-06 03:18:09
最新!福建一市任免多位处级干部

最新!福建一市任免多位处级干部

大闽门户
2026-02-05 22:50:26
乌克兰消灭“俄罗斯英雄”莫斯利莫夫!曾被俄防长亲自授勋

乌克兰消灭“俄罗斯英雄”莫斯利莫夫!曾被俄防长亲自授勋

项鹏飞
2026-02-03 17:26:49
过年保存馒头,不要直接放冰箱,教你一招,放一个月不干硬不发霉

过年保存馒头,不要直接放冰箱,教你一招,放一个月不干硬不发霉

秀厨娘
2026-02-04 16:42:29
日本人不爱运动,却是长寿的国家,7个习惯是关键,值得学习

日本人不爱运动,却是长寿的国家,7个习惯是关键,值得学习

39健康网
2026-02-04 18:13:56
江苏一女子被茶宠青花瓷麒麟“咬了”,求助消防后脱困:想试下它嘴巴里的结构,结果一下卡住,大家别学我

江苏一女子被茶宠青花瓷麒麟“咬了”,求助消防后脱困:想试下它嘴巴里的结构,结果一下卡住,大家别学我

台州交通广播
2026-02-05 17:54:55
摩根大通:各国央行需求强劲 金价2026年底或升至6300美元/盎司

摩根大通:各国央行需求强劲 金价2026年底或升至6300美元/盎司

财联社
2026-02-05 20:23:25
皇马再遭暴击!6000万红星辱骂主裁被官宣禁赛2场 无缘欧冠附加赛

皇马再遭暴击!6000万红星辱骂主裁被官宣禁赛2场 无缘欧冠附加赛

我爱英超
2026-02-06 07:14:49
服了!字母哥最终留队!雄鹿你烽火戏诸侯啊?

服了!字母哥最终留队!雄鹿你烽火戏诸侯啊?

柚子说球
2026-02-06 05:49:25
巴拿马想认错也没机会,中国3份檄文通告全球!一颗螺丝钉都不留

巴拿马想认错也没机会,中国3份檄文通告全球!一颗螺丝钉都不留

余們搞笑段子
2026-02-06 01:33:56
2026-02-06 07:31:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
243732文章数 621422关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

本地
时尚
家居
数码
艺术

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

她随手打赏就是6两黄金:人美,心善,钱多!

家居要闻

简雅序章 自然且闲适

数码要闻

航嘉 高能 S140 Pro氮化镓安全快充深度评测

艺术要闻

一幅宋画,带你看最美的雪中之梅

无障碍浏览 进入关怀版