网易首页 > 网易号 > 正文 申请入驻

DeepSeek又有重大突破?一款未公开大模型展现惊人能力

0
分享至

DeepSeek再一次发布了强大的开源大模型。

1月20日,国内大模型公司深度求索(DeepSeek)在其公众号公布了新一代开源大模型DeepSeek-R1,该模型号称在数学、代码、自然语言推理等任务上,性能比肩美国OpenAI公司最新的o1大模型正式版。

根据数据,DeepSeek-R1在算法类代码场景(Codeforces)和知识类测试(GPQA、MMLU)中的得分略低于OpenAI o1,但在工程类代码场景(SWE-Bench Verified)、美国数学竞赛(AIME 2024, MATH)项目上,均超过了OpenAI o1 。

其中,与深度求索上月发布的大模型DeepSeek-V3相比,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,而其余项均有不同程度的提升。

深度求索还更新了用户协议,明确模型开源License将统一使用标准的MIT许可,同时还允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。按照深度求索数据显示,在以DeepSeek-R1基础上进行“蒸馏”的6个小模型中,32B和70B模型在多项能力上都实现了对标OpenAI的o1-mini 的效果。

面对这个令人瞩目的成绩,深度求索则解释称,DeepSeek-R1 后训练阶段中大规模使用了强化学习(RL)技术,在仅有极少人工标注数据的情况下,极大提升了模型推理能力。这意味着该模型几乎跳过了监督微调(SFT)步骤,就实现了推理能力自我提升。

DeepSeek-R1-Zero自然而然地学会用更多的思考时间来解决推理任务。深度求索

通常情况下,强化学习的好处是可以通过与外界评价反馈,不断让模型自我优化,生成更符合人类偏好的内容。而监督微调则是指在预训练使用人工标注的数据进行干预,可以让生成的内容更准确且符合预期,这也是当年ChatGPT成功的关键。但从成本上来说,强化学习虽然需要大量人类反馈,且训练复杂计算成本高,但监督微调则非常依赖高质量的人工标注数据。

值得注意的是,目前深度求索向用户提供的仅有DeepSeek-R1版本,而在其公开测试结果中却透露了另一个大模型 —— DeepSeek-R1-Zero。该模型完全通过大规模使用强化学习替代了监督微调,但也导致了一些问题,因此未对外公开。

更重要的是,工作人员发现,在DeepSeek-R1-Zero自我学习的过程,随着时间的增加,该模型“涌现”出了复杂的行为,如自我反思、评估先前步骤、自发寻找替代方案的情况,还包括一次“尤里卡时刻”(“aha moment)。

“尤里卡时刻”指人类突然理解一个以前无法理解的问题或概念的某个时刻。

深度求索透露,这次“尤里卡”发生在DeepSeek-R1-Zero的的中间版本期间。当时工作人员惊奇地发现,在一道数学题中,该模型学会了使用拟人化的语气进行自我反思,并主动为问题分配了更多地时间进行重新思考。

深度求索称,工作人员并没有教DeepSeek-R1-Zero如何解决问题,只是提供了正确的激励,它就能自主发展出先进的问题解决策略。“这次尤里卡也提醒我们,强化学习有可能为人工智能解锁新的智能水平,为以后发展出更自主和适应性的模型铺平道路。”

不过,虽然DeepSeek-R1-Zero展示出了强大的推理能力,但自身也出现了一些语言混乱及可读性的问题,因此深度求索通过引入数千条高质量的冷启动数据和多段强化学习来解决这些问题,并获得了上文中对外正式公布的DeepSeek-R1大模型。

目前,DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。

本文系观察者网独家稿件,未经授权,不得转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谁也拦不住贾国龙埋葬西贝

谁也拦不住贾国龙埋葬西贝

不惑猪的频道
2026-01-17 19:26:43
大溃败!中国网贷公司,在印度全军覆没

大溃败!中国网贷公司,在印度全军覆没

首席品牌评论
2026-01-07 18:20:00
周最佳球员:西部亚历山大 东部阿德巴约

周最佳球员:西部亚历山大 东部阿德巴约

北青网-北京青年报
2026-01-20 07:30:05
安徽画家关玉梅被判处死刑,死前拒吃断头饭,临行前一句话众人泪目

安徽画家关玉梅被判处死刑,死前拒吃断头饭,临行前一句话众人泪目

红豆讲堂
2024-11-15 11:25:33
2026年新成语:恶意寻子!该警惕了,细节越挖越心寒!

2026年新成语:恶意寻子!该警惕了,细节越挖越心寒!

你食不食油饼
2026-01-11 06:41:42
西安代驾圈,挤满了失业的经理人 | 人间

西安代驾圈,挤满了失业的经理人 | 人间

网易人间
2026-01-19 14:04:31
联盟第一!哈登爆砍36分,快船惊险战胜奇才

联盟第一!哈登爆砍36分,快船惊险战胜奇才

阿衃体育
2026-01-20 08:02:28
新京报批评牛娜对丈夫“公开处刑”!评论区却遭到网友怒怼!

新京报批评牛娜对丈夫“公开处刑”!评论区却遭到网友怒怼!

阿燕姐说育儿
2026-01-19 12:46:12
一个残忍的现象:当你接触的人越多,就会发现,越是嘴甜、会来事、情商高的人,往往背后最会算计人

一个残忍的现象:当你接触的人越多,就会发现,越是嘴甜、会来事、情商高的人,往往背后最会算计人

品读时刻
2026-01-19 09:08:21
谁也没想到,被传“风流成性,绯闻不断”的左小青,如今成了这样

谁也没想到,被传“风流成性,绯闻不断”的左小青,如今成了这样

小熊侃史
2026-01-20 07:50:03
恩爱29年遭遇背叛,陈凯歌的“喜新厌旧”终成悲剧

恩爱29年遭遇背叛,陈凯歌的“喜新厌旧”终成悲剧

阿废冷眼观察所
2026-01-17 10:37:27
美国签证太离谱!晒了一条朋友圈,签证被撤了!

美国签证太离谱!晒了一条朋友圈,签证被撤了!

易签visa
2026-01-19 11:23:01
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
WTT公布新加坡大满贯双打名单,莎头组合不在其中,原因让人心疼

WTT公布新加坡大满贯双打名单,莎头组合不在其中,原因让人心疼

球盲百小易
2026-01-20 00:56:22
他是史书上贪图好色的享乐者,也是明朝中兴的关键角色

他是史书上贪图好色的享乐者,也是明朝中兴的关键角色

新京报
2026-01-18 16:36:10
养老金发放时间定了!2026年2月遇春节,14日前多数地区到账

养老金发放时间定了!2026年2月遇春节,14日前多数地区到账

复转这些年
2026-01-19 23:53:23
寒潮、冰冻、大风多预警发布 南方局地降温10℃以上

寒潮、冰冻、大风多预警发布 南方局地降温10℃以上

极目新闻
2026-01-20 07:02:53
31岁中国女留学生刚到英国三天,时差还没倒过来,就和人发生关系

31岁中国女留学生刚到英国三天,时差还没倒过来,就和人发生关系

百态人间
2026-01-18 05:30:04
媒体称武打明星梁小龙去世,其个人社交媒体10小时前发文“此事古难全”

媒体称武打明星梁小龙去世,其个人社交媒体10小时前发文“此事古难全”

红星新闻
2026-01-18 16:54:14
李亚鹏没想到,儿童医院陷租金纠纷不到两天,前妻王菲口碑暴跌

李亚鹏没想到,儿童医院陷租金纠纷不到两天,前妻王菲口碑暴跌

秋风悲画芯
2026-01-20 01:27:48
2026-01-20 08:51:00
观察者网 incentive-icons
观察者网
全球视野,中国关怀
132696文章数 1849718关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

女子订3间双床房被告知是3张单人床 退订扣80%违约金

头条要闻

女子订3间双床房被告知是3张单人床 退订扣80%违约金

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

2026股市猜想

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

家居
房产
亲子
手机
数码

家居要闻

隽永之章 清雅无尘

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

亲子要闻

宝妈必学,孩子不懂对侵犯说不,任何人都有可能是坏人!

手机要闻

苹果iPhone 18系列售价曝光:起步维持原价,大容量版本起飞

数码要闻

荣耀Magic8 RSR体验:7999元买个不强调影像的超大杯,反而对了?

无障碍浏览 进入关怀版