网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek最新发文!V3/R1训练细节全公开,信息量巨大

0
分享至

新智元报道

编辑:KingHZ 桃子

【新智元导读】新规第一天,DeepSeek第一时间站出来了!接下来,所有自家AI生成内容,统统标出「AI身份」。更劲爆的是,DeepSeek主动「交底」V3/R1的模型训练细节。

今天,网信办《人工智能生成合成内容标识办法》正式生效。

其中,第四条要求:对符合要求的AI生成合成内容添加显式标识。

紧跟最新政策,DeepSeek出手了。

刚刚,DeepSeek官微发布了最新回应公告——凡是AI生成的内容,都会清楚标注「AI生成」。

它还郑重提醒,用户严禁恶意删除、篡改、隐匿标识,更别提用AI传播、制作虚假信息。

此外,这次还发布了《模型原理与训练方法说明》,可以一瞥DeepSeek的技术路径。

接下来,深扒一下DeepSeek V3/R1的一些训练细节。

传送门:https://cdn.deepseek.com/policies/zh-CN/model-algorithm-disclosure.html

回应新要求,DeepSeek公开技术说明

DeepSeek主要介绍了大模型的训练和推理阶段,包括预训练、优化训练(微调)以及训练数据等。

不同大模型的神经网络架构

模型训练

模型训练阶段即模型的开发阶段:通过设计好的深度神经网络架构和训练方法,开发人员开发出可被部署使用的模型。

模型由多层神经网络组成,不同的架构直接影响模型的性能。此外,模型性能也受参数规模的制约,而训练的目的就是找到具体的参数值。

目前,大模型的参数规模数以亿计。最新的DeepSeek-V3-0324,参数总量为6850亿。

在训练过程中,这些参数通过梯度下降算法迭代优化。

这次,DeepSeek把模型训练分为预训练优化训练两个环节。

预训练:预训练目标是通过数据训练模型,使模型掌握通用的语言理解与生成能力。

优化训练:也称为微调,是在预训练模型的基础上通过特定任务的数据进一步调整模型参数,使模型适应实际应用场景。

在预训练阶段,模型通过大规模自监督学习,从文本数据中学习语言模式与知识关联。预训练完成后,模型能理解并生成连贯的文本,但还不会精准地回答问题或执行任务,因此需要进一步的训练微调。

在优化训练阶段,模型一般通过SFT、RL等方法,学会根据指令回答问题,符合人类的偏好和需求,并激发在特定领域的专业能力。

经过优化训练的模型能更好地满足实际需求,可被部署使用。

深挖训练「内幕」,炼出最强大脑

DeepSeek模型的能力,是建立在高质量、大规模、多样化的数据之上。

在「预训练阶段」和「优化训练阶段」,各有不同。

预训练阶段

在预训练阶段,主要使用了两类数据:

互联网公开可用的信息,比如网页、公开文档等。

与第三方合作获取许可的数据

需要强调的是,在此阶段,根本无需获取个人信息用于训练,DeepSeek不会有意关联至任何特定账户和个人,更不会主动将其用于训练模型。

不过,预训练数据规模过于庞大,可能偶然包含了一些个人信息。

对此,DeepSeek会通过技术手段,尽力筛查并移除这些信息,确保数据「干干净净」。

为了保证数据质量、安全、多样,他们还打造了一套硬核数据治理流程——

首先,通过「过滤器」自动剔除仇恨言论、色情低俗、暴力、垃圾信息,以及可能侵权的原始数据。

其次,通过算法+人工审核,识别并降低数据中的统计性偏见,让模型更公平、更客观。

优化训练阶段

到了优化训练阶段,一般需要通过人工或自动化的方式构造、标注一批问答对数据来对模型进行训练。

DeepSeek这次表示:这些问答对数据是由研究团队生成提供的,其中少部分数据的构造可能会基于用户的输入

在DeepSeek-R1训练中,研究人员直接提示模型生成包含反思和验证的详细答案;收集并整理DeepSeek-R1-Zero的输出,使其具有可读性;以及通过人工注释者的后期处理来提高数据质量

如涉及利用用户的输入构造训练数据,DeepSeek会对数据进行安全加密技术处理、严格的去标识化和匿名化处理,从而尽可能避免训练数据关联到任何特定个人,且不会在模型给其他用户的输出中带有个人信息,更不会将其用于用户画像或个性化推荐。

同时,DeepSeek为用户提供了选择退出的权利。

为了确保模型的安全性,在模型优化训练阶段,DeepSeek构造了专门的安全数据对模型进行安全对齐,教会模型的回复符合人类的价值观,增强模型内生的安全能力。

模型推理

模型的推理阶段即模型被部署提供服务。

模型训练完成并被部署后,可以通过对输入信息进行编码和计算来预测下一个token,从而具备文本生成和对话等能力。

部署后的模型能够熟练执行基于文本生成的广泛多样的任务,并可以集成到各种下游系统或应用中。

具体到DeepSeek的产品服务,基于用户的输入,模型采用自回归生成方式,基于输入的上下文内容,通过概率计算预测最可能的接续词汇序列。

推理完成后,模型输出相应的内容作为响应,包括文字、表格和代码等。

此并非简单检索或「复制粘贴」训练数据中的原始文本,模型也并未存储用于训练的原始文本数据副本,而是基于对语言结构和语义关系的深度理解,动态生成符合语境的回答。

DeepSeek这次还强调模型开源。

我们通过开源平台对外公开发布了所有模型的权重、参数以及推理工具代码等,并采用宽松的MIT协议,供使用者自由、免费下载部署使用。

同时,DeepSeek发布各模型的完整技术报告,供社区和研究人员参考,并帮助公众更深入地了解每个模型的技术原理和细节。

LLM致命幻觉,全周期硬核对抗

毋庸置疑,当前AI发展还在早期阶段,存在无法避免的局限性。

若是再被加以滥用,将会带来严重的后果。

局限性

AI往往会生成错误、遗漏,或不符合事实的内容,这种现象统一称之为「幻觉」。

这个问题,是整个AI行业面临的挑战。

对此,DeepSeek正通过一些技术手段降低幻觉率,包括高质量的训练数据、优化对齐策略、RAG等,但现阶段依无法完全消灭。

同时,他们还在欢迎页、生成文本的末尾,以及交互界面底部,添加显著的提示标识。

特别提醒用户——内容由人工智能生成,可能不准确。

因此,AI生成的内容仅供参考,所有人不应将输出的内容作为专业建议。

尤其是,在医疗、法律、金融等专业领域,DeepSeek不提供任何建议或承诺,专业的事儿还得找专业的人。

滥用风险

AI技术本身是中立的,但滥用可能带来隐私保护、版权、数据安全、内容安全、偏见歧视等风险。

DeepSeek对此也是高度重视,采取了一系列硬核措施,贯穿了模型研发、训练、部署的全生命周期。

制定内部风险管理制度

开展模型安全性评估

进行红队测试

增强模型和服务透明度等

更重要的是,DeepSeek还赋予了用户知情权、选择权、控制权——

你可以查询服务的基本信息、拒绝其数据用于模型训练、删除其历史数据等。

参考资料:

https://cdn.deepseek.com/policies/zh-CN/model-algorithm-disclosure.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

浙江之声
2026-07-04 08:13:16
LV批量起诉惹争议,网友:你敢起诉人民币吗?

LV批量起诉惹争议,网友:你敢起诉人民币吗?

映射生活的身影
2026-07-04 20:06:13
空袭惨烈!乌克兰第二大城市被炸成废墟,俄军接连拿下关键阵地!

空袭惨烈!乌克兰第二大城市被炸成废墟,俄军接连拿下关键阵地!

青青衫书生
2026-07-02 23:23:10
香港网红向郭富城、方媛道歉,承认发活动照片时只P了自己,没有“修饰”郭富城夫妇;否认恶意丑化他人,称他俩状态非常出色

香港网红向郭富城、方媛道歉,承认发活动照片时只P了自己,没有“修饰”郭富城夫妇;否认恶意丑化他人,称他俩状态非常出色

鲁中晨报
2026-07-04 09:30:04
人伦大乱正在毁掉无数中国家庭:3种乱象就在日常,拖垮一家人

人伦大乱正在毁掉无数中国家庭:3种乱象就在日常,拖垮一家人

阿凯销售场
2026-07-04 15:35:28
一觉醒来,WTT美国大满贯,国乒传来三大振奋人心的好消息!

一觉醒来,WTT美国大满贯,国乒传来三大振奋人心的好消息!

田先生篮球
2026-07-04 06:54:57
世体:自世界杯首战表现不佳后,B席在葡萄牙队已经没有位置

世体:自世界杯首战表现不佳后,B席在葡萄牙队已经没有位置

懂球帝
2026-07-04 11:45:09
苹果拒绝给印度交380亿罚款,印度一气将苹果630G机密数据泄露

苹果拒绝给印度交380亿罚款,印度一气将苹果630G机密数据泄露

流苏晚晴
2026-07-04 19:02:39
最新报告:全国每100户家庭中 就有一户净资产超600万!

最新报告:全国每100户家庭中 就有一户净资产超600万!

叶初七
2026-07-04 09:44:35
39岁女子扮男子炸伤受乌克兰制裁富豪,国际刑警组织发出红色通缉

39岁女子扮男子炸伤受乌克兰制裁富豪,国际刑警组织发出红色通缉

红星新闻
2026-07-04 15:53:16
一场葬礼震撼全香港!百位大佬到场,霍启刚也去了,扶灵只有一人

一场葬礼震撼全香港!百位大佬到场,霍启刚也去了,扶灵只有一人

川渝视觉
2026-07-04 22:04:51
世界杯争议!主裁纵容爆发冲突,巴拉圭肘击逃牌,姆巴佩痛苦倒地

世界杯争议!主裁纵容爆发冲突,巴拉圭肘击逃牌,姆巴佩痛苦倒地

侃球熊弟
2026-07-05 06:05:15
“北大毕业,月薪1600”,女孩满脸憔悴,网友:谁让你读这专业?

“北大毕业,月薪1600”,女孩满脸憔悴,网友:谁让你读这专业?

泽泽先生
2026-07-04 21:35:57
固态电池神话彻底破灭,中科院曾连发"王炸",电池行业迎来变局

固态电池神话彻底破灭,中科院曾连发"王炸",电池行业迎来变局

铭记历史呀
2026-07-05 02:56:50
佛得角门神沃齐尼亚父母赴美观赛:温州商人帮他们如愿

佛得角门神沃齐尼亚父母赴美观赛:温州商人帮他们如愿

海右那人
2026-07-04 16:13:07
臆测10月解放军“收复台湾” 美军大肆囤积弹药

臆测10月解放军“收复台湾” 美军大肆囤积弹药

看看新闻Knews
2026-07-04 14:28:03
粉丝从5万暴涨到近2000万,佛得角40岁门将火了!梅西谈佛得角:他们好像总是多出一个人

粉丝从5万暴涨到近2000万,佛得角40岁门将火了!梅西谈佛得角:他们好像总是多出一个人

都市快报橙柿互动
2026-07-04 13:23:28
中国真实税率的另一种视角:增值税

中国真实税率的另一种视角:增值税

生命可以承受之轻
2026-07-03 16:18:06
一个小统计:民主国家在足球方面碾压非民主国家

一个小统计:民主国家在足球方面碾压非民主国家

黔有虎
2026-07-04 19:11:29
绿军送走巅峰FMVP被骂,转头神级操作打脸全联盟,这盘棋太绝了

绿军送走巅峰FMVP被骂,转头神级操作打脸全联盟,这盘棋太绝了

林子说事
2026-07-05 03:03:24
2026-07-05 06:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15607文章数 66947关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

手机
房产
艺术
亲子
游戏

手机要闻

iPhone Air2再次被确认:散热、双扬声器、双摄,均迎来升级!

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

艺术要闻

八大山人迷之印章 你认得几个?

亲子要闻

短到捏不住的铅笔头,写下的满是懂事和感恩。老师问:“怎么用这么短呀?”男孩安静鞠了一躬

韩版“全境封锁”PC配置降低 内存改为32GB起步

无障碍浏览 进入关怀版