网易首页 > 网易号 > 正文 申请入驻

猜谜大师逆袭!DeepSeek-R1 用 "临时工模式" 碾压同行

0
分享至



2025年1月20日,大语言模型DeepSeek-R1横空出世。相对其他大语言模型,它以很低的训练成本达成极高的性能而为世人瞩目。


(图源《知识就是力量》杂志)




让机器“说话”

自然语言处理(Natural LanguageProcessing,简称NLP)是通过计算机实现语言分析,研究人机交互并进行有效通信的理论与技术。它旨在使计算机能够理解、处理和生成人类的语言,实现人机之间的有效交流。



“猜谜大师”养成记

简单来说,你可以把训练DeepSeek等大模型的过程看成一个“猜谜大师”的养成过程。在训练时,它会被“投喂”海量文本,但它不记忆具体知识,而是学习词语之间的关联规律,比如“狗喜欢吃……”后面大概率出现的词汇是“骨头”或“肉”,而不是“草”。随着训练量增大,它可以不断提高自己产生结果的概率和合理性,例如“地道”后面是“战”还是“美食”,它会根据上下文语境做出判断。

在对话阶段,Transformer模型主要采取边听边猜并不断优化的模式进行。例如,当你输入“为什么天空看起来是蓝色的”时,Transformer模型会利用自注意力机制拆解关键词,找到“天空”“蓝色”等关键词,然后根据在训练阶段掌握的规律找到“光的散射”和“大气层”等知识片段,再逐词生成完整的回答。在生成答案的过程中,它还可以根据反馈不断调整和优化结果。


(图源《知识就是力量》杂志)




更优秀的大语言模型之路

许多预训练语言模型都是通过增大训练参数规模来提高模型训练的效果的,但这样会对数据和算力有很高的要求,使得训练和部署模型的成本巨大。

DeepSeek的突出创新点之一在于,它主要是通过优化算法来达成较好的模型训练效果的,因此需求的训练数据相对较少、训练算力相对较低。在这一过程中,它使用的混合专家模型(Mixture of Experts,MoE)起到了突出作用。

为了更好地理解混合专家模型的工作机制,我们可以举个例子:一间准备装修的毛坯房,想要将它装好,需要20个泥瓦工、20个木工和10个油漆工,其他大模型会在整个施工期间都“养”着这50名工人,而DeepSeek则会根据施工需要,在特定的时段“雇佣”特定的工人,所以DeepSeek的训练成本更低。

此外,DeepSeek对图形处理器(GPU)和芯片进行了深度优化,进一步降低了模型训练和部署的成本。

同时,DeepSeek是开源的,它公布了自己的模型参数和训练工具链,吸引广大二次开发者对其应用和优化,迅速形成了自己的开发生态,从而进一步满足模型在医学、法律等特定领域的需求。


(图源《知识就是力量》杂志)


撰文| 杨屹 律原

责任编辑 | 牛一名 岳焕琦

运营编辑 | 岳焕琦

质量审核| 业蕾


❖ 来源:《知识就是力量》杂志 ❖


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
古巴宣布重大开放!

古巴宣布重大开放!

Nee看
2026-03-17 12:26:57
胖东来为什么舍得40亿?因为他看懂了太子奶

胖东来为什么舍得40亿?因为他看懂了太子奶

老鹰哥
2026-03-17 09:05:49
雷军宣布小米汽车代言人

雷军宣布小米汽车代言人

电动知家
2026-03-17 10:58:40
震惊全网!一个月薪45000的IT男,如今成为钢筋工

震惊全网!一个月薪45000的IT男,如今成为钢筋工

番外行
2026-03-17 13:07:09
男子在新疆沙漠养蛏子?产量惊人,网友:八杆子打不着的组合!

男子在新疆沙漠养蛏子?产量惊人,网友:八杆子打不着的组合!

狸猫之一的动物圈
2026-03-16 11:11:11
“打假人”王海:你怎么能把鸡蛋做得那么橙黄?黄天鹅创始人冯斌:我们没有做错什么!

“打假人”王海:你怎么能把鸡蛋做得那么橙黄?黄天鹅创始人冯斌:我们没有做错什么!

每日经济新闻
2026-03-16 22:18:19
以军刺杀伊朗安全高官,哈梅内伊曾委任他在自己遭遇不测后领导国家

以军刺杀伊朗安全高官,哈梅内伊曾委任他在自己遭遇不测后领导国家

极目新闻
2026-03-17 16:31:25
太突然!广州这家19年老酒楼结业!

太突然!广州这家19年老酒楼结业!

广州生活美食圈
2026-03-17 11:37:06
姚晨官宣离婚,二婚前夫老底被扒!恶心一幕发生,刘烨果然没说错

姚晨官宣离婚,二婚前夫老底被扒!恶心一幕发生,刘烨果然没说错

潮鹿逐梦
2026-03-16 16:43:35
那我放心了,现在超多人失业。

那我放心了,现在超多人失业。

老陆不老
2026-03-16 16:42:39
太狠了!特朗普政府:20万移民司机驾照全部作废,加州纽约不听话就断粮

太狠了!特朗普政府:20万移民司机驾照全部作废,加州纽约不听话就断粮

齐天候
2026-03-17 14:08:33
聚餐砸家后续:妻儿连夜逃走,独自收拾两天,朋友传开后悔求原谅

聚餐砸家后续:妻儿连夜逃走,独自收拾两天,朋友传开后悔求原谅

潮鹿逐梦
2026-03-17 09:50:25
泽连斯基万万没想到,美伊大打出手,让乌克兰成了最大赢家

泽连斯基万万没想到,美伊大打出手,让乌克兰成了最大赢家

空天力量
2026-03-17 13:06:32
外媒:以军袭击伊朗最高国家安全委员会秘书拉里贾尼

外媒:以军袭击伊朗最高国家安全委员会秘书拉里贾尼

新京报
2026-03-17 16:19:11
“再炸几次,为了好玩”

“再炸几次,为了好玩”

南风窗
2026-03-17 14:46:07
遭官方曝光的“毒洗发水”,很多家庭还在用,难怪头发越来越少

遭官方曝光的“毒洗发水”,很多家庭还在用,难怪头发越来越少

大鱼简科
2026-03-16 17:38:13
油价暴涨后,特朗普急着甩锅中国?发动G7联手施压,中方态度亮了

油价暴涨后,特朗普急着甩锅中国?发动G7联手施压,中方态度亮了

小樾说历史
2026-03-16 14:06:12
美国财长:特朗普“因霍尔木兹海峡护航事威胁推迟访华”报道不实

美国财长:特朗普“因霍尔木兹海峡护航事威胁推迟访华”报道不实

澎湃新闻
2026-03-17 11:20:26
法新社:伊朗正与FIFA就将世界杯小组赛移至墨西哥进行协商

法新社:伊朗正与FIFA就将世界杯小组赛移至墨西哥进行协商

懂球帝
2026-03-17 14:54:11
租客装修后退房,房东要求恢复成毛坯,法院判了

租客装修后退房,房东要求恢复成毛坯,法院判了

现代快报
2026-03-16 19:45:10
2026-03-17 16:51:00
知识就是力量杂志 incentive-icons
知识就是力量杂志
《知识就是力量》 创刊于1956年,是中国科学家为青少年创作的跨学科、深阅读科普核心期刊。
8982文章数 398233关注度
往期回顾 全部

科技要闻

3万字实录|黄仁勋:每家公司都必须懂养虾

头条要闻

以军刺杀伊朗安全高官拉里贾尼:正在"核实刺杀结果"

头条要闻

以军刺杀伊朗安全高官拉里贾尼:正在"核实刺杀结果"

体育要闻

那个男人34岁拒绝买断 他要给状元当导师

娱乐要闻

姚晨曹郁发离婚声明 凌潇肃评论区沦陷

财经要闻

我们都是被“训练”出来的大模型

汽车要闻

10分钟电量20%→97% 低温实测比亚迪闪充

态度原创

游戏
家居
健康
旅游
时尚

《生化9》里昂到底跟谁结婚了?演员本人回应

家居要闻

侘寂美学 无用之美

转头就晕的耳石症,能开车上班吗?

旅游要闻

今年前两个月访港旅客995万人次 同比上升18%

来自天南地北的春日穿搭和美景,都太美了吧!

无障碍浏览 进入关怀版