网易首页 > 网易号 > 正文 申请入驻

从DeepSeek R1的复现看深度思考模型的未来|ML-Summit 2025

0
分享至

备受瞩目的 2025 全球机器学习技术大会(ML Summit 2025)将于 4 月 18-19 日在上海虹桥西郊庄园丽笙大酒店召开。本次盛会由 CSDN & Boolan 联合主办,汇聚了超 50 位来自学术界和工业界顶尖专家,共同探讨智能体、联邦学习、多模态大模型等热门 AI 技术实践。

作为全球机器学习技术大会的老朋友,新浪微博首席科学家及 AI 研发部负责人张俊林将带来《从 DeepSeek R1 的复现看深度思考模型的未来》的精彩分享。

张俊林作为「大模型技术拆解得最通透的实战派」,在 2024 年的机器学习技术大会上,他对 Gemini 多模态架构、OpenAI o1 技术的硬核拆解,让开发者直呼“终于有人讲透技术本质”。

从 DeepSeek R1 复现出发,洞见深度思考模型未来

DeepSeek R1 的开源引发了学术界和工业界对其复现研究的热潮,也为探索更强大的“深度思考”模型提供了新的视角。本次演讲将:

  • 系统梳理技术脉络: 回顾 DeepSeek R1 开源后的各类复现研究,涵盖 SFT 阶段的轻量适配(如 S1)与 RL 阶段的创新实践。

  • 深度解析训练范式: 重点剖析其核心的两阶段训练模式——如何通过冷启动微调结合多领域数据优化进行 SFT,以及如何运用 GRPO 强化学习与全场景对齐实现模型“深度思考”能力的跃迁。

  • 探讨关键技术问题: 尝试解答一系列备受关注的核心问题,例如:强化学习(RL)的 Scaling Law 边界何在?影响 SFT 阶段蒸馏方法效果的关键因素是什么?如何科学地理解和解释 DeepSeek 团队提及的“Aha Moment”现象?

大模型时代,Scaling Law 依旧是核心驱动力。张俊林深入探讨 Grok 3 背后的 Scaling Law 本质,以及对大模型未来发展的启示。他提出,即使 Grok 3 耗费大量算力,仍然遵循预训练阶段增大模型尺寸的“传统”做法,这种做法的性价比值得进一步思考。

此外,张俊林通过用 S 型曲线叠加来解释大模型预训练、后训练以及推理阶段 Scaling Law 的各种现象,引发业界广泛关注。他认为,理解 Scaling Law 的关键在于理解 S 型曲线的叠加。具体可参考张俊林撰写的如下两篇文章,AI 科技大本营均有发表:

对于渴望紧跟大模型前沿、理解深度思考模型核心机制与未来方向的听众而言,张俊林的分享无疑是一场不容错过的知识盛宴。

ML Summit 2025:汇聚全球智慧,共绘 AI 新蓝图

2025 全球机器学习技术大会 (ML Summit 2025) 不仅是技术交流的平台,更是推动 AI 生态融合、促进行业协同创新的重要契机。大会设有 12 大技术专题,覆盖 AI 领域的前沿热点。此外,大会还将设置 AI 企业创新展区,展示最新的技术产品和解决方案。

我们诚挚邀请全球 AI 产业参与者积极加入 ML Summit 2025,共同探索 AI 的未来发展方向,推动 AI 在更广泛的应用场景中落地生根。期待与您在 ML Summit 2025 携手见证 AI 时代的新篇章!

▲2024全球机器学习技术大会展区盛况

我们诚邀全球 AI 产业参与者积极加入,共同捕捉前沿趋势,探索产业升级路径,推动 AI 走向更广阔的应用场景。期待在 ML Summit 2025,与每一位同行者携手见证 AI 时代的新篇章 !

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚复出就夺冠!全运会跳水女子团体:全红婵领衔广东队轻松卫冕

刚复出就夺冠!全运会跳水女子团体:全红婵领衔广东队轻松卫冕

全景体育V
2025-11-02 20:53:11
歌手黄安透露,屠颖去世是因为在酒店跑步机上跑步时摔跤致颅内出血

歌手黄安透露,屠颖去世是因为在酒店跑步机上跑步时摔跤致颅内出血

红星新闻
2025-11-02 10:19:19
普京天塌了!巨亏500亿美元,泽连斯基使离间计,感谢中国帮大忙

普京天塌了!巨亏500亿美元,泽连斯基使离间计,感谢中国帮大忙

南宫一二
2025-11-02 12:29:02
黄金要征税了,两部门发布新政,博主:更要去买黄金,晚了就买不到了

黄金要征税了,两部门发布新政,博主:更要去买黄金,晚了就买不到了

回旋镖
2025-11-02 17:18:39
事发上海地铁!活的禁入!一对男女惊呆:“绑成这样还能越狱?”这份美味居然败给了安检

事发上海地铁!活的禁入!一对男女惊呆:“绑成这样还能越狱?”这份美味居然败给了安检

极目新闻
2025-11-02 20:11:35
吉隆坡首会,中美军方谈崩了?美防长提的要求,董军一个也没答应

吉隆坡首会,中美军方谈崩了?美防长提的要求,董军一个也没答应

来科点谱
2025-11-02 09:31:28
果然,见完中方,高市早苗连续2天会见台独,外交部的回应不简单

果然,见完中方,高市早苗连续2天会见台独,外交部的回应不简单

林子说事
2025-11-02 05:56:22
我为什么不想写太子集团的陈志?

我为什么不想写太子集团的陈志?

伢伢复盘
2025-11-02 09:06:28
清华姚班毕业天才、量化大佬出新书:《ren妻约会指南》

清华姚班毕业天才、量化大佬出新书:《ren妻约会指南》

吃瓜体
2025-11-02 16:31:48
WTT法国冠军赛:王艺迪4-2力克韩国黑马,晋级决赛和温特争冠

WTT法国冠军赛:王艺迪4-2力克韩国黑马,晋级决赛和温特争冠

乒谈
2025-11-02 19:47:44
国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

董董历史烩
2025-11-01 14:13:05
天塌了!一夜之间2家公司被立案,1家被ST,14万股东集体踩雷

天塌了!一夜之间2家公司被立案,1家被ST,14万股东集体踩雷

财经智多星
2025-11-01 08:16:00
辛柏青的状态很可能不容乐观,不仅是心态,身体有可能也出了问题

辛柏青的状态很可能不容乐观,不仅是心态,身体有可能也出了问题

银河史记
2025-10-31 17:23:53
“初三女生在校被同学殴打13次,后确诊精神分裂”新进展:额尔古纳市启动全面复查

“初三女生在校被同学殴打13次,后确诊精神分裂”新进展:额尔古纳市启动全面复查

大风新闻
2025-11-02 14:45:02
只有在发展联盟打出场均20+10的数据,杨瀚森才有机会重回NBA!

只有在发展联盟打出场均20+10的数据,杨瀚森才有机会重回NBA!

田先生篮球
2025-11-02 09:38:10
长春亚泰提前降级!海牛逃出生天,再拿1分将保级,梅州一线生机

长春亚泰提前降级!海牛逃出生天,再拿1分将保级,梅州一线生机

奥拜尔
2025-11-02 17:22:59
上官正义举报拐卖儿童反被控制:它们不给你说法,我给你一个说法

上官正义举报拐卖儿童反被控制:它们不给你说法,我给你一个说法

律侠普法
2025-11-02 18:45:45
北京知名游乐园起火,最新通报

北京知名游乐园起火,最新通报

南方都市报
2025-11-02 18:33:29
甘肃康县燕子河再现淘金者,数十人凌晨冒严寒采金,警方:已处置并与相关部门沟通加强管理

甘肃康县燕子河再现淘金者,数十人凌晨冒严寒采金,警方:已处置并与相关部门沟通加强管理

极目新闻
2025-11-02 18:16:35
翁帆最新近况:穿35块的帆布鞋,带34箱手稿搬离旧居

翁帆最新近况:穿35块的帆布鞋,带34箱手稿搬离旧居

金牌娱乐
2025-11-02 09:53:48
2025-11-02 22:59:00
AI科技大本营 incentive-icons
AI科技大本营
连接AI技术的创造者和使用者
2596文章数 7635关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

多名教师称被欠薪欠缴社保 数千万学费被填房地产窟窿

头条要闻

多名教师称被欠薪欠缴社保 数千万学费被填房地产窟窿

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

健康
数码
旅游
教育
公开课

核磁VS肌骨超声,谁更胜一筹?

数码要闻

放心用!AMD确认:RDNA 1、RDNA 2继续获得Day 0游戏支持

旅游要闻

总长度340公里 都江堰市文化遗产步道发布

教育要闻

不要逼孩子天天考第一,真善美才是无价之宝

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版