网易首页 > 网易号 > 正文 申请入驻

DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型

0
分享至

在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强化、幻觉改善和创意写作更好等。

在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。

值得一提的是,DeepSeek提到,新版DeepSeek R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。

所谓幻觉即大模型的“胡说八道”,此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。

据SuperCLUE,推理模型的幻觉比非推理模型更显著,在他们的测评中推理模型的平均幻觉率为22.95%,非推理模型的平均幻觉率为13.52%。

除了幻觉方面的改善,官方介绍,新R1模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试(一个数学基准测试,用于模型在数学推理方面的能力)中,新版模型准确率由旧版的70%提升至87.5%。

此外,更新后的 R1 模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

在官方发文之前,众多测试表明R1新模型的代码能力有显著提升,在代码测试平台Live CodeBench中,其性能几乎媲美OpenAI重量级的o3-high模型。官方此次公告也提到,在前端代码生成、角色扮演等领域,模型的能力确实均有更新和提升。

在迭代路径上,DeepSeek表示,DeepSeek-R1-0528 仍然使用 2024 年12月所发布的DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。

本次R1新模型参数为 685B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。同时,与旧版本的R1保持一致,此次开源模型权重仍然统一采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

有趣的是,在X平台DeepSeek的官方评论区中,讨论的话题全都关于R2模型,“We want R2(我们想要R2模型)”,有用户评论称。业界对DeepSeek下一代的模型期待已久。

基于DeepSeek刚刚发布了更新,有用户猜测,“是否意味着我们暂时不会听到有关R2的消息?”也有用户调侃称,这一模型或许在开发中应该是R2,但是当他们发现在基准测试中没有超越OpenAI的o3 时,DeepSeek将其重新命名为R1的更新。

一向低调的DeepSeek并未对外界的猜测进行任何回应,基于R1是在V3模型的基础上训练的,或许我们会先等到V4模型的更新。无论如何,海内外大模型领域的基座模型大战还在继续,DeepSeek之后,谁会是下一家?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西方的吃人宗教,是如何炼成的?

西方的吃人宗教,是如何炼成的?

北山浮生
2026-01-30 21:23:08
先批杜兰特,再批申京!乌度卡真急了?炮轰火箭双核,帅位或不稳

先批杜兰特,再批申京!乌度卡真急了?炮轰火箭双核,帅位或不稳

熊哥爱篮球
2026-02-06 19:00:09
陈佩斯朱时茂28年后再登春晚,朱军主持,冯巩倪萍助阵

陈佩斯朱时茂28年后再登春晚,朱军主持,冯巩倪萍助阵

历史的游荡者
2026-02-06 13:42:31
郭晶晶终撕豪门假面!18年阔太生涯成笑谈,网友:早该如此!

郭晶晶终撕豪门假面!18年阔太生涯成笑谈,网友:早该如此!

TVB的四小花
2026-02-06 06:47:40
许晋亨每月领200万,开600多万奔驰代步,富不过三代早过时了?

许晋亨每月领200万,开600多万奔驰代步,富不过三代早过时了?

小鬼头体育
2026-02-04 14:30:00
2016年肯尼亚单方面撕毁与中企的合作合同,拒不赔付176亿违约金,还逼迫中方退还43亿

2016年肯尼亚单方面撕毁与中企的合作合同,拒不赔付176亿违约金,还逼迫中方退还43亿

史海孤雁
2026-02-01 17:32:24
伊朗官员称武装部队今晚起将进入最高级别戒备状态

伊朗官员称武装部队今晚起将进入最高级别戒备状态

环球网资讯
2026-02-06 18:41:09
固始新娘身份被揭!同学曝猛料,婆家遭殃全员避雷!

固始新娘身份被揭!同学曝猛料,婆家遭殃全员避雷!

特约前排观众
2026-02-06 00:20:03
出差十天老婆竟要嫁人,婚礼上我让司仪宣布冻结她千万资产

出差十天老婆竟要嫁人,婚礼上我让司仪宣布冻结她千万资产

晓艾故事汇
2026-02-03 09:20:23
飞天茅台,“一天价格调了5次”

飞天茅台,“一天价格调了5次”

澎湃新闻
2026-02-06 01:53:16
湖人主场逆转三喜临门,里夫斯为东詹兜底,新援射手能无缝衔接?

湖人主场逆转三喜临门,里夫斯为东詹兜底,新援射手能无缝衔接?

谢说篮球
2026-02-06 17:40:43
朱元璋曾梦见黑猪拱翻龙椅,惊醒后问刘伯温,刘伯温听后脸色大变

朱元璋曾梦见黑猪拱翻龙椅,惊醒后问刘伯温,刘伯温听后脸色大变

千秋文化
2026-02-04 21:06:14
舒马赫妻子科琳娜,照顾丈夫12年,花费超20亿,如今终于等到奇迹

舒马赫妻子科琳娜,照顾丈夫12年,花费超20亿,如今终于等到奇迹

寒士之言本尊
2026-01-28 16:12:08
我去!这是女神戚美珍?变化也太大了,看不到一点年轻时的影子

我去!这是女神戚美珍?变化也太大了,看不到一点年轻时的影子

TVB的四小花
2026-02-06 17:01:01
奇才爆冷掀翻东部第一,但功臣真不是浓眉?

奇才爆冷掀翻东部第一,但功臣真不是浓眉?

篮球看比赛
2026-02-06 17:19:44
卢靖姗:我对韩庚的评分太高,生完孩子后,他永远回家先亲我

卢靖姗:我对韩庚的评分太高,生完孩子后,他永远回家先亲我

秀语千寻
2026-02-05 23:52:24
任浩脸气青了!陈熠惨败桥本太沮丧 韩莹丈夫:差了孙颖莎一档

任浩脸气青了!陈熠惨败桥本太沮丧 韩莹丈夫:差了孙颖莎一档

颜小白的篮球梦
2026-02-06 09:37:44
女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

第7情感
2025-09-17 12:12:15
A股春节红包行情有望开启

A股春节红包行情有望开启

和讯网
2026-02-06 16:02:04
特朗普起诉美两部门索赔至少100亿美元,美财长承认:若他胜诉,费用将由美民众承担

特朗普起诉美两部门索赔至少100亿美元,美财长承认:若他胜诉,费用将由美民众承担

环球网资讯
2026-02-06 18:41:17
2026-02-06 19:16:54
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
243794文章数 621434关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

爱泼斯坦案文件牵出更多欧美政商名流

头条要闻

爱泼斯坦案文件牵出更多欧美政商名流

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

家居
手机
旅游
时尚
军事航空

家居要闻

现代轻奢 温馨治愈系

手机要闻

新年换机指南:nova 15系列叠加国补成2000-3000元档的最优解

旅游要闻

各景区“随地大小躺”合照火了 游客们自发纷纷在景区里自然躺倒 与风景融为一体

开运首饰|| 300多到手天然珍珠、水晶,好意头还显贵气

军事要闻

美国“肯尼迪”号核动力航母完成首次海试

无障碍浏览 进入关怀版