网易首页 > 网易号 > 正文 申请入驻

猜谜大师逆袭!DeepSeek-R1 用 "临时工模式" 碾压同行

0
分享至

2025年1月20日,大语言模型DeepSeek-R1横空出世。相对其他大语言模型,它以很低的训练成本达成极高的性能而为世人瞩目。


让机器“说话”

自然语言处理(Natural LanguageProcessing,简称NLP)是通过计算机实现语言分析,研究人机交互并进行有效通信的理论与技术。它旨在使计算机能够理解、处理和生成人类的语言,实现人机之间的有效交流。

“猜谜大师”养成记

简单来说,你可以把训练DeepSeek等大模型的过程看成一个“猜谜大师”的养成过程。在训练时,它会被“投喂”海量文本,但它不记忆具体知识,而是学习词语之间的关联规律,比如“狗喜欢吃……”后面大概率出现的词汇是“骨头”或“肉”,而不是“草”。随着训练量增大,它可以不断提高自己产生结果的概率和合理性,例如“地道”后面是“战”还是“美食”,它会根据上下文语境做出判断。

在对话阶段,Transformer模型主要采取边听边猜并不断优化的模式进行。例如,当你输入“为什么天空看起来是蓝色的”时,Transformer模型会利用自注意力机制拆解关键词,找到“天空”“蓝色”等关键词,然后根据在训练阶段掌握的规律找到“光的散射”和“大气层”等知识片段,再逐词生成完整的回答。在生成答案的过程中,它还可以根据反馈不断调整和优化结果。


更优秀的大语言模型之路

许多预训练语言模型都是通过增大训练参数规模来提高模型训练的效果的,但这样会对数据和算力有很高的要求,使得训练和部署模型的成本巨大。

DeepSeek的突出创新点之一在于,它主要是通过优化算法来达成较好的模型训练效果的,因此需求的训练数据相对较少、训练算力相对较低。在这一过程中,它使用的混合专家模型(Mixture of Experts,MoE)起到了突出作用。

为了更好地理解混合专家模型的工作机制,我们可以举个例子:一间准备装修的毛坯房,想要将它装好,需要20个泥瓦工、20个木工和10个油漆工,其他大模型会在整个施工期间都“养”着这50名工人,而DeepSeek则会根据施工需要,在特定的时段“雇佣”特定的工人,所以DeepSeek的训练成本更低。

此外,DeepSeek对图形处理器(GPU)和芯片进行了深度优化,进一步降低了模型训练和部署的成本。

同时,DeepSeek是开源的,它公布了自己的模型参数和训练工具链,吸引广大二次开发者对其应用和优化,迅速形成了自己的开发生态,从而进一步满足模型在医学、法律等特定领域的需求。


撰文| 杨屹 律原

责任编辑 | 牛一名 岳焕琦

运营编辑 | 岳焕琦

质量审核| 业蕾


❖ 来源:《知识就是力量》杂志 ❖


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“永远不要和任何人修复关系,无论是谁,人和人的关系只有一次”

“永远不要和任何人修复关系,无论是谁,人和人的关系只有一次”

衷曲无闻
2026-03-20 21:31:55
“这真是玩手机玩的”,8岁女孩吃饭姿势怪异,网友都看不下去了

“这真是玩手机玩的”,8岁女孩吃饭姿势怪异,网友都看不下去了

妍妍教育日记
2026-03-22 08:30:09
骑士险胜!哈登20+6+10赛后哈登一把抱住墨菲,又去找小乔丹拥抱

骑士险胜!哈登20+6+10赛后哈登一把抱住墨菲,又去找小乔丹拥抱

担酒
2026-03-22 09:33:13
牛!乌克兰英雄在地下掩体里坚持作战了471天

牛!乌克兰英雄在地下掩体里坚持作战了471天

老马拉车莫少装
2026-03-21 00:10:44
重庆大学1死3伤后续!知情人透露死者是研究生,原因曝光不简单

重庆大学1死3伤后续!知情人透露死者是研究生,原因曝光不简单

观察鉴娱
2026-03-22 09:06:19
成品油价即将迎来“五连涨”,下周一加满一箱油可能将多花80元,周末记得加满油

成品油价即将迎来“五连涨”,下周一加满一箱油可能将多花80元,周末记得加满油

扬子晚报
2026-03-21 07:37:10
美国人可能在撒谎,一项证据表明,F-35并未安全降落沙特军事基地

美国人可能在撒谎,一项证据表明,F-35并未安全降落沙特军事基地

止戈军是我
2026-03-21 11:24:53
上海滩最强高中生代表上海男篮,出战!

上海滩最强高中生代表上海男篮,出战!

新民晚报
2026-03-22 10:51:02
怎么判断一个单位已经烂透了?网友:我公司全中,属实扎心

怎么判断一个单位已经烂透了?网友:我公司全中,属实扎心

另子维爱读史
2026-01-01 23:40:47
傅斯年怒斥苏联“集罪恶之大成”:那些敢向苏联开炮的中国硬骨头

傅斯年怒斥苏联“集罪恶之大成”:那些敢向苏联开炮的中国硬骨头

顾史
2026-03-21 19:52:44
岛国业界五大美少妇,完美腰臀比 —— 难以抗拒的人间尤物!

岛国业界五大美少妇,完美腰臀比 —— 难以抗拒的人间尤物!

碧波万览
2026-03-22 00:24:48
爱泼斯坦案又曝新瓜,太劲爆了…

爱泼斯坦案又曝新瓜,太劲爆了…

七叔东山再起
2026-03-21 21:06:32
加兰轰41+11无缘今日最佳!抱歉,哈登末节暴走导演大逆转

加兰轰41+11无缘今日最佳!抱歉,哈登末节暴走导演大逆转

世界体育圈
2026-03-22 12:34:30
退休后从广州搬到佛山,住一年才明白:这不是换地方,是换活法

退休后从广州搬到佛山,住一年才明白:这不是换地方,是换活法

呼呼历史论
2026-03-21 19:06:50
12天票房破12亿,力压《镖人》轻松夺冠,吴京的全球冠军梦要碎了

12天票房破12亿,力压《镖人》轻松夺冠,吴京的全球冠军梦要碎了

影视高原说
2026-03-20 06:57:54
俄军博博主:他们死守库皮扬斯克100天殉国,却不配被承认

俄军博博主:他们死守库皮扬斯克100天殉国,却不配被承认

老马拉车莫少装
2026-03-22 11:17:51
离那些张口闭口不离宏大叙事的人远点

离那些张口闭口不离宏大叙事的人远点

廖保平
2026-03-20 10:14:56
正式退役!整整28年啊,终于可以退役了,神射手终于圆梦了

正式退役!整整28年啊,终于可以退役了,神射手终于圆梦了

球童无忌
2026-03-21 00:47:48
湖人绝杀魔术:逆境群力9连胜

湖人绝杀魔术:逆境群力9连胜

张佳玮写字的地方
2026-03-22 10:13:09
蒙古国回应美方决定:难以理解

蒙古国回应美方决定:难以理解

环球时报国际
2026-03-20 23:15:36
2026-03-22 13:52:49
知识就是力量杂志 incentive-icons
知识就是力量杂志
《知识就是力量》 创刊于1956年,是中国科学家为青少年创作的跨学科、深阅读科普核心期刊。
8996文章数 398233关注度
往期回顾 全部

科技要闻

OpenAI开启“人海战术” 冲刺8000人规模

头条要闻

女子举报干部母亲名下有巨额财产被判道歉 当事人发声

头条要闻

女子举报干部母亲名下有巨额财产被判道歉 当事人发声

体育要闻

郑钦文两盘横扫前美网冠军 迎迈阿密站开门红

娱乐要闻

《澎湖海战》重启宣传 上映时间确定了

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

教育
数码
游戏
房产
公开课

教育要闻

【投票1】认为三中今年的录取分数线是?

数码要闻

小米推出2026款REDMI电视新品:100英寸8799元

《黑神话》官方上新春季新品!3月23日正式开售

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版