网易首页 > 网易号 > 正文 申请入驻

夜谈:多模态场景加持下的 DeepSeek R1 深度推理丨周日分享·大模型2.0读书会

0
分享至

导语

DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在。R1-Zero 从基础模型开始构建,完全依赖强化学习(RL),而不使用人类专家标注的监督微调(SFT)。在训练过程中,随着步骤增加,模型逐渐展现出长文本推理以及长链推理的能力。随着推理路径的逐步增长,模型还表现出自我修复的能力,能够发现并修复之前的错误。

分享内容简介

DeepSeek R1-Zero 和 R1 在纯文本模态上取得的优异表现十分惊艳,这也不经让人期待:多模态场景加持下 DeepSeek R1 深度推理模型将会是怎样的表现?满血671B微调是否有框架支持?能否将DeepSeek微调用于交叉领域以及本土化价值对齐和部署?

  • 模态穿透和模态联动将有望进一步提升强推理能力。人类在日常生活中接收到的信息往往是全模态的,不同的感官渠道能够互相补充,帮助我们更全面地理解和表达复杂的概念。

  • 全模态扩展将成为DeepSeek R1的下一个重大突破。首先,在复杂决策场景中构建起"感知-理解-推演"的闭环认知体系,在多个场景下扩展智能边界。

本次夜谈关注多模态场景中强推理下的拓展。从DeepSeek-R1开创RL加持下的强推理慢思考范式新边界出发,介绍Align-DS-V(基于DeepSeek-R1扩展得到的多模态模型),并讨论模型过度思考 (Over-Thinking)现象以及强推理下的安全:形式化验证(Formal Verification),审计对齐(Deliberative Alignment)等内容。

分享大纲

  • DeepSeek-R1 开创RL加持下强推理慢思考范式新边界

  • DeepSeek-R1 Zero 及 R1 技术剖析

  • Pipeline 总览 \ DeepSeek-V3 Base \ DeepSeek-R1 Zero 及 R1 细节分析

  • 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o-series)

  • 从文本模态到多模态

  • 其他讨论:Over-Thinking 过度思考等

  • 未来方向分析探讨

  • 模态穿透赋能推理边界拓展:Align-DS-V

  • 强推理下的安全:形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment

主讲人介绍

陈博远,北大对齐小组(PKU-Alignment Team)成员,师从北京大学杨耀东老师。他关注的问题包括如何利用弱模型实现对强模型的可扩展监督(这对解决超对齐问题至关重要),以及如何以理论和实验相结合的方法帮助实现AI系统的道德价值对齐和解决相应的社会技术问题。

涉及到的参考文献

  • 强推理 & DS-R1

  • DeepSeek-R1 技术报告 https://github.com/deepseek-ai/DeepSeek-R1

  • DeepSeek-V3 技术报告 : Liu, A., Feng, B., Xue, B., Wang, B., Wu, B., Lu, C., ... & Piao, Y. (2024). Deepseek-v3 technical report. arXiv preprint arXiv:2412.19437

  • 多模态 & 全模态

  • Align-Anything Github Repo: https://github.com/PKU-Alignment/align-anything

  • 多模态 Align-DeepSeek-V: https://huggingface.co/PKU-Alignment/Align-DS-V

  • Align-Anything: Ji, J., Zhou, J., Lou, H., Chen, B., Hong, D., Wang, X., ... & Yang, Y. (2024). Align anything: Training all-modality models to follow instructions with language feedback. arXiv preprint arXiv:2412.15838.

  • 可扩展监督 & 形式化验证 & 拒绝对齐

  • Language Models Resist Alignment: Ji, J., Wang, K., Qiu, T., Chen, B., Zhou, J., Li, C., ... & Yang, Y. (2024). Language models resist alignment. arXiv preprint arXiv:2406.06144.

  • s1: Simple test-time scaling:Muennighoff, N., Yang, Z., Shi, W., Li, X. L., Fei-Fei, L., Hajishirzi, H., ... & Hashimoto, T. (2025). s1: Simple test-time scaling. arXiv preprint arXiv:2501.19393.

  • RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?: Xu, H., Wu, X., Wang, W., Li, Z., Zheng, D., Chen, B., ... & Zhang, D. (2025). RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?. arXiv preprint arXiv:2501.11284.

参与信息

时间:

2025年3月2日(本周日)晚上19:30-21:30。

扫码参与,加入群聊,获取系列读书会回看权限,成为人工智能社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动人工智能社区的发展。

报名成为主讲人

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。详情请见:

大模型2.0读书会启动

o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。

从2024年12月7日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!

详情请见:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贵州省人民政府关于夏望春等任免职的通知

贵州省人民政府关于夏望春等任免职的通知

知知贵阳
2026-02-03 18:54:35
三只羊“头部网红”单飞!曾是小杨哥首个月销破亿的徒弟

三只羊“头部网红”单飞!曾是小杨哥首个月销破亿的徒弟

北京商报
2026-02-03 14:43:48
编程界巨震!Codex桌面版上线,一人指挥Agent军团终结程序员996

编程界巨震!Codex桌面版上线,一人指挥Agent军团终结程序员996

魏家东
2026-02-03 12:28:57
北约11国启动大规模军演,动用1500余辆军用车辆、20多架飞机、17艘海军舰艇,美国没参加;海陆空分别由西班牙、意大利、土耳其指挥主导

北约11国启动大规模军演,动用1500余辆军用车辆、20多架飞机、17艘海军舰艇,美国没参加;海陆空分别由西班牙、意大利、土耳其指挥主导

极目新闻
2026-02-03 09:01:19
任正非没想到,高调官宣喜讯的姚安娜,竟凭一个举动再次给他长脸

任正非没想到,高调官宣喜讯的姚安娜,竟凭一个举动再次给他长脸

牛牛叨史
2026-02-04 00:50:38
“他做得太过分了”:泽连斯基对俄提出的新要求令西方感到惊讶

“他做得太过分了”:泽连斯基对俄提出的新要求令西方感到惊讶

聚焦真实瞬间
2026-02-04 00:49:30
库里争冠路上,勇士做出惊人决策!格林或被交易!

库里争冠路上,勇士做出惊人决策!格林或被交易!

蜜心萝莉
2026-02-04 00:10:17
媒体人:有南美经纪人给中超球队推过J罗,因薪资太高而无下文

媒体人:有南美经纪人给中超球队推过J罗,因薪资太高而无下文

懂球帝
2026-02-03 18:16:14
我把车库给嫂子开快递站,把陪嫁房借她午休,她竟在我房里坐月子

我把车库给嫂子开快递站,把陪嫁房借她午休,她竟在我房里坐月子

我是三月鱼H
2026-02-02 17:13:01
中国造不出光刻机?中科大副院长:美国造不出,中国永远都不可能

中国造不出光刻机?中科大副院长:美国造不出,中国永远都不可能

快乐彼岸
2026-02-04 02:08:23
广东84-94不敌上海 球员评价:萨姆纳优秀,胡明轩及格,9人低迷

广东84-94不敌上海 球员评价:萨姆纳优秀,胡明轩及格,9人低迷

篮球资讯达人
2026-02-03 21:35:28
噩耗:14亿人的守护神走了!他瞒过全世界、为中国玩命60年!

噩耗:14亿人的守护神走了!他瞒过全世界、为中国玩命60年!

来科点谱
2025-11-11 08:56:24
研究发现:高血压的人若经常喝白酒,不用多长时间,或有5变化

研究发现:高血压的人若经常喝白酒,不用多长时间,或有5变化

蜉蝣说
2026-01-15 11:02:52
中超新赛季降级预测:4选2,前中超冠军在列,无升班马辽宁铁人

中超新赛季降级预测:4选2,前中超冠军在列,无升班马辽宁铁人

男足的小球童
2026-02-03 18:33:08
61岁男子,坚持饿肚子不吃晚饭,6个月之后,血糖和体重情况如何

61岁男子,坚持饿肚子不吃晚饭,6个月之后,血糖和体重情况如何

蜉蝣说
2026-02-03 15:04:01
越扒越有!重庆饭店"阴阳菜单"只是冰山一角,知情人曝更炸裂猛料

越扒越有!重庆饭店"阴阳菜单"只是冰山一角,知情人曝更炸裂猛料

丁丁鲤史纪
2026-02-02 09:44:12
一天2.2万人爽约!灵隐寺这次算是被白嫖党,给结结实实上了一课

一天2.2万人爽约!灵隐寺这次算是被白嫖党,给结结实实上了一课

火山诗话
2026-02-02 08:41:43
释新闻|巴基斯坦俾路支省遭遇史上最大“协同袭击”,发生了什么?

释新闻|巴基斯坦俾路支省遭遇史上最大“协同袭击”,发生了什么?

澎湃新闻
2026-02-02 19:21:02
2025年浙江各地市GDP排名:杭州第一,宁波第二,温州破万亿

2025年浙江各地市GDP排名:杭州第一,宁波第二,温州破万亿

白浅娱乐聊
2026-02-02 08:51:26
狐狸尾巴藏不住了!以为能"毁掉"樊振东,不料自己先被扒个底朝天

狐狸尾巴藏不住了!以为能"毁掉"樊振东,不料自己先被扒个底朝天

观察鉴娱
2025-12-27 10:02:21
2026-02-04 02:43:00
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5643文章数 4662关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

美军F35战机击落伊朗无人机 伊炮艇冲向挂美国旗油轮

头条要闻

美军F35战机击落伊朗无人机 伊炮艇冲向挂美国旗油轮

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

数码
健康
本地
房产
时尚

数码要闻

机械师推出新款24寸显示器:1080P 144Hz IPS屏仅449元

耳石症分类型,症状大不同

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

房产要闻

大盘最低杀到8000+/㎡!海口59盘,最新房价曝光!

状态比10年前更好,她到底做对了什么?

无障碍浏览 进入关怀版