网易首页 > 网易号 > 正文 申请入驻

DeepSeek又有重大突破?一款未公开大模型展现惊人能力

0
分享至

DeepSeek再一次发布了强大的开源大模型。

1月20日,国内大模型公司深度求索(DeepSeek)在其公众号公布了新一代开源大模型DeepSeek-R1,该模型号称在数学、代码、自然语言推理等任务上,性能比肩美国OpenAI公司最新的o1大模型正式版。

根据数据,DeepSeek-R1在算法类代码场景(Codeforces)和知识类测试(GPQA、MMLU)中的得分略低于OpenAI o1,但在工程类代码场景(SWE-Bench Verified)、美国数学竞赛(AIME 2024, MATH)项目上,均超过了OpenAI o1 。

其中,与深度求索上月发布的大模型DeepSeek-V3相比,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,而其余项均有不同程度的提升。

深度求索还更新了用户协议,明确模型开源License将统一使用标准的MIT许可,同时还允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。按照深度求索数据显示,在以DeepSeek-R1基础上进行“蒸馏”的6个小模型中,32B和70B模型在多项能力上都实现了对标OpenAI的o1-mini 的效果。

面对这个令人瞩目的成绩,深度求索则解释称,DeepSeek-R1 后训练阶段中大规模使用了强化学习(RL)技术,在仅有极少人工标注数据的情况下,极大提升了模型推理能力。这意味着该模型几乎跳过了监督微调(SFT)步骤,就实现了推理能力自我提升。

DeepSeek-R1-Zero自然而然地学会用更多的思考时间来解决推理任务。深度求索

通常情况下,强化学习的好处是可以通过与外界评价反馈,不断让模型自我优化,生成更符合人类偏好的内容。而监督微调则是指在预训练使用人工标注的数据进行干预,可以让生成的内容更准确且符合预期,这也是当年ChatGPT成功的关键。但从成本上来说,强化学习虽然需要大量人类反馈,且训练复杂计算成本高,但监督微调则非常依赖高质量的人工标注数据。

值得注意的是,目前深度求索向用户提供的仅有DeepSeek-R1版本,而在其测试结果中却透露了另一个大模型 —— DeepSeek-R1-Zero。该模型完全通过大规模使用强化学习替代了监督微调,但也导致了一些问题,因此未对外公开。

更重要的是,工作人员发现,在DeepSeek-R1-Zero自我学习的过程,随着时间的增加,该模型“涌现”出了复杂的行为,如自我反思、评估先前步骤、自发寻找替代方案的情况,还包括一次“尤里卡时刻”(“aha moment”)。

“尤里卡时刻”指人类突然理解一个以前无法理解的问题或概念的某个时刻。

深度求索透露,这次“尤里卡”发生在DeepSeek-R1-Zero的的中间版本期间。当时工作人员惊奇地发现,在一道数学题中,该模型学会了使用拟人化的语气进行自我反思,并主动为问题分配了更多的时间进行重新思考。

深度求索称,工作人员并没有教DeepSeek-R1-Zero如何解决问题,只是提供了正确的激励,它就能自主发展出先进的问题解决策略。“这次尤里卡也提醒我们,强化学习有可能为人工智能解锁新的智能水平,为以后发展出更自主和适应性的模型铺平道路。”

不过,虽然DeepSeek-R1-Zero展示出了强大的推理能力,但自身也出现了一些语言混乱及可读性的问题,因此深度求索通过引入数千条高质量的冷启动数据和多段强化学习来解决这些问题,并获得了上文中对外正式公布的DeepSeek-R1大模型。

目前,DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。

本文源自:观网财经

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
侄子免试直升中戏!揭秘闫学晶家族的升学秘密

侄子免试直升中戏!揭秘闫学晶家族的升学秘密

东方不败然多多
2026-02-14 21:54:07
36岁龙洋辞别央视!新身份曝光,人生彻底转向

36岁龙洋辞别央视!新身份曝光,人生彻底转向

草莓解说体育
2026-02-10 00:27:58
电影院现在为何如此惨淡?网友的评论太真实了

电影院现在为何如此惨淡?网友的评论太真实了

手工制作阿歼
2026-02-14 17:48:19
为何全世界只有亚洲人吃大米?美国只种不吃,非洲人懒得种

为何全世界只有亚洲人吃大米?美国只种不吃,非洲人懒得种

吃货的分享
2026-02-07 06:33:47
大瓜!中戏3人主动投案,闫学晶儿子瑟瑟发抖,半个娱乐圈受牵连

大瓜!中戏3人主动投案,闫学晶儿子瑟瑟发抖,半个娱乐圈受牵连

壹月情感
2026-02-14 21:56:18
此刻,苏通大桥,又有人开始散步了?期待二桥和海太!

此刻,苏通大桥,又有人开始散步了?期待二桥和海太!

卷史
2026-02-14 17:10:42
不到24小时,日本释放中国渔民!高市很清楚,挑衅的后果承担不起

不到24小时,日本释放中国渔民!高市很清楚,挑衅的后果承担不起

知鉴明史
2026-02-14 22:18:10
希勒:凯恩在拜仁待得越久,我的英超历史进球纪录就保持越久

希勒:凯恩在拜仁待得越久,我的英超历史进球纪录就保持越久

懂球帝
2026-02-14 01:57:06
唐朝为什么要设置节度使,难道不知道这会导致地方割据吗?

唐朝为什么要设置节度使,难道不知道这会导致地方割据吗?

掠影后有感
2026-02-14 13:28:52
胜选三天后,高市收解放军通知,中方撂下狠话,日本把王牌摆上桌

胜选三天后,高市收解放军通知,中方撂下狠话,日本把王牌摆上桌

老媹古装影视解说
2026-02-13 16:32:47
再见保罗!正式退役,NBA只是生意场!联盟太没有人情味了

再见保罗!正式退役,NBA只是生意场!联盟太没有人情味了

篮球扫地僧
2026-02-14 21:41:17
猛降17℃!湖北中到大雪来袭

猛降17℃!湖北中到大雪来袭

极目新闻
2026-02-14 18:41:02
已读乱回?笑死了,有时候真是驴唇不对马嘴

已读乱回?笑死了,有时候真是驴唇不对马嘴

夜深爱杂谈
2026-02-09 21:13:05
1985年百万大裁军,被撤销的四大军区司令员与政委,后来都去往何处?

1985年百万大裁军,被撤销的四大军区司令员与政委,后来都去往何处?

老杉说历史
2026-02-13 16:35:06
红色资本家荣毅仁89岁在北京逝世,留下的5个子女,今现状如何?

红色资本家荣毅仁89岁在北京逝世,留下的5个子女,今现状如何?

南书房
2026-02-05 19:25:03
特朗普惊出一身冷汗,中美已无法开战,一杀手锏让美军无计可施

特朗普惊出一身冷汗,中美已无法开战,一杀手锏让美军无计可施

健身狂人
2026-02-14 15:44:06
明朝“最懒”的对联:上联和下联一字不差,却成千古绝对流传至今

明朝“最懒”的对联:上联和下联一字不差,却成千古绝对流传至今

铭记历史呀
2026-02-03 16:11:20
湖北传来一声巨响!1723亿湖北巨头逆袭,三星都要低头交专利费

湖北传来一声巨响!1723亿湖北巨头逆袭,三星都要低头交专利费

云景侃记
2026-02-14 09:16:51
杀到10万!奥迪车价,彻底崩了

杀到10万!奥迪车价,彻底崩了

首席品牌评论
2026-02-13 23:12:50
惨!突然遭终止上市!15天暴涨4倍被宣判退市,几万股东彻夜难眠!

惨!突然遭终止上市!15天暴涨4倍被宣判退市,几万股东彻夜难眠!

股市皆大事
2026-02-14 21:58:34
2026-02-14 22:51:00
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 545923关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

马克龙反击"欧洲衰落"论调:所有人都应以我们为榜样

头条要闻

马克龙反击"欧洲衰落"论调:所有人都应以我们为榜样

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

艺术
本地
教育
公开课
军事航空

艺术要闻

418米!浙江最高楼,即将“破土而出”

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

教育要闻

有学生提了255分!离高考不到4个月了,艺考生文化课赶紧补!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

钓鱼岛、黄岩岛、仁爱礁已充满中国年味

无障碍浏览 进入关怀版