网易首页 > 网易号 > 正文 申请入驻

DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型

0
分享至

在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强化、幻觉改善和创意写作更好等。


在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。

值得一提的是,DeepSeek提到,新版DeepSeek R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。

所谓幻觉即大模型的“胡说八道”,此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。


据SuperCLUE,推理模型的幻觉比非推理模型更显著,在他们的测评中推理模型的平均幻觉率为22.95%,非推理模型的平均幻觉率为13.52%。

除了幻觉方面的改善,官方介绍,新R1模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试(一个数学基准测试,用于模型在数学推理方面的能力)中,新版模型准确率由旧版的70%提升至87.5%。

此外,更新后的 R1 模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

在官方发文之前,众多测试表明R1新模型的代码能力有显著提升,在代码测试平台Live CodeBench中,其性能几乎媲美OpenAI重量级的o3-high模型。官方此次公告也提到,在前端代码生成、角色扮演等领域,模型的能力确实均有更新和提升。

在迭代路径上,DeepSeek表示,DeepSeek-R1-0528 仍然使用 2024 年12月所发布的DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。

本次R1新模型参数为 685B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。同时,与旧版本的R1保持一致,此次开源模型权重仍然统一采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

有趣的是,在X平台DeepSeek的官方评论区中,讨论的话题全都关于R2模型,“We want R2(我们想要R2模型)”,有用户评论称。业界对DeepSeek下一代的模型期待已久。

基于DeepSeek刚刚发布了更新,有用户猜测,“是否意味着我们暂时不会听到有关R2的消息?”也有用户调侃称,这一模型或许在开发中应该是R2,但是当他们发现在基准测试中没有超越OpenAI的o3 时,DeepSeek将其重新命名为R1的更新。

一向低调的DeepSeek并未对外界的猜测进行任何回应,基于R1是在V3模型的基础上训练的,或许我们会先等到V4模型的更新。无论如何,海内外大模型领域的基座模型大战还在继续,DeepSeek之后,谁会是下一家?


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
依依向北风大结局:比乔正君惨,比王潇苦,他们两个才是最可悲的

依依向北风大结局:比乔正君惨,比王潇苦,他们两个才是最可悲的

阿废冷眼观察所
2025-11-03 08:19:21
莫斯科附近军用油管被炸!俄罗斯老人涉嫌“诋毁俄军”,绝不屈服

莫斯科附近军用油管被炸!俄罗斯老人涉嫌“诋毁俄军”,绝不屈服

鹰眼Defence
2025-11-02 16:03:37
5胜2负排第3,湖人有4个变化,最强组合基本确认,雷迪克也涨球了

5胜2负排第3,湖人有4个变化,最强组合基本确认,雷迪克也涨球了

体坛大辣椒
2025-11-03 13:40:19
“苏超”冠军的牌面,泰州市委书记和市长更衣室祝贺泰州夺冠

“苏超”冠军的牌面,泰州市委书记和市长更衣室祝贺泰州夺冠

懂球帝
2025-11-02 14:13:07
1968年,周总理签署命令逮捕周恩寿,7年后周恩寿出狱时说:他没错

1968年,周总理签署命令逮捕周恩寿,7年后周恩寿出狱时说:他没错

帝哥说史
2025-11-02 06:35:03
国民党主席位置坐稳,郑丽文摊牌了:两岸若不能回归,其他都免谈

国民党主席位置坐稳,郑丽文摊牌了:两岸若不能回归,其他都免谈

娱乐小可爱蛙
2025-11-03 11:32:04
王诗龄何超莲同框,16岁妹妹气场全开,赌王千金这次真被比下去了

王诗龄何超莲同框,16岁妹妹气场全开,赌王千金这次真被比下去了

柠檬有娱乐
2025-11-03 11:32:57
马斯克,最新预言!

马斯克,最新预言!

每日经济新闻
2025-11-02 14:32:04
厦门女士存了1500万,去取钱时被告知剩50元,警方的话让女子懵了

厦门女士存了1500万,去取钱时被告知剩50元,警方的话让女子懵了

牛魔王与芭蕉扇
2025-03-31 15:49:22
57万元/平方米!深圳一别墅被神秘富豪3.65亿元“捡漏”拍下,刷新全国纪录

57万元/平方米!深圳一别墅被神秘富豪3.65亿元“捡漏”拍下,刷新全国纪录

每日经济新闻
2025-11-02 09:13:03
4-6!斯诺克再爆冷门:世界冠军首轮出局,丁俊晖赵心童齐头并进

4-6!斯诺克再爆冷门:世界冠军首轮出局,丁俊晖赵心童齐头并进

观察鉴娱
2025-11-03 09:56:41
太离谱了!美国情报表示霹雳-15射程远是因为华为窃取AI技术

太离谱了!美国情报表示霹雳-15射程远是因为华为窃取AI技术

朔方瞭望
2025-11-03 11:30:53
零跑破7万,蔚来破4万,鸿蒙智行创新高!10月销量谁最猛?

零跑破7万,蔚来破4万,鸿蒙智行创新高!10月销量谁最猛?

电动星球News
2025-11-01 22:44:52
全红婵伤愈首秀夺冠后,不到24小时,评论区却各种吐槽:吃太胖了

全红婵伤愈首秀夺冠后,不到24小时,评论区却各种吐槽:吃太胖了

古木之草记
2025-11-03 12:09:31
太涩了?日本真人影游被Steam下架!只能另寻出路

太涩了?日本真人影游被Steam下架!只能另寻出路

游民星空
2025-11-01 15:10:11
上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

霹雳炮
2025-10-17 21:31:29
4.25万/平!北京二手房加速俯冲?

4.25万/平!北京二手房加速俯冲?

跟着拆哥看房
2025-11-03 12:58:51
又一内鬼被抓!惊动央视,大量国家机密被泄露,作案人身份被曝光

又一内鬼被抓!惊动央视,大量国家机密被泄露,作案人身份被曝光

春秋论娱
2025-09-16 07:50:48
后续!女孩校门口吃烤肠被收走钥匙,女孩哭求归还,学校紧急回应

后续!女孩校门口吃烤肠被收走钥匙,女孩哭求归还,学校紧急回应

鋭娱之乐
2025-11-03 11:25:29
张紫妍:被迫陪睡31人近百次,遭道具虐待,29岁自杀留230页遗书

张紫妍:被迫陪睡31人近百次,遭道具虐待,29岁自杀留230页遗书

银河史记
2025-10-01 14:52:35
2025-11-03 14:28:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
234694文章数 620498关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

健康
艺术
教育
亲子
手机

核磁VS肌骨超声,谁更胜一筹?

艺术要闻

90后跨国夫妻,到浙江山居:花20万租20年,值了!

教育要闻

火花思维荣获艾瑞咨询权威确认,领跑数理思维真人小班直播课赛道

亲子要闻

双喜临门!她官宣结婚怀孕

手机要闻

vivo X300 系列手机行业首发全新摇一摇群组分享

无障碍浏览 进入关怀版