蒲慕明：对 DeepSeek 突破的思考|算法|实验|脑科学|人工智能|超级智能|deepseek

蒲慕明：对 DeepSeek 突破的思考

2025-02-18 18:03:53　来源: 生物学霸

浙江举报

分享至

来源：国家科学评论 NSR、全澜脑科学

图源：论文截图

2025 年将成为近几十年来中国科学界最值得铭记的年份之一。1 月 20 日，杭州的一家小型人工智能公司 DeepSeek 宣布推出一款名为 DeepSeek R1 的推理人工智能模型，其效率惊人，在全球范围内引起了轰动，一些人工智能爱好者甚至称其为「人工智能革命」。这款模型之所以引起轰动，是因为 DeepSeek R1 可与大型人工智能公司开发的顶尖大语言模型（LLM）相媲美，如 ChatGPT-o1。但与目前的顶尖大语言模型相比，R1 的基础大语言模型 V3（几周前发布）的开发成本只是它们的一小部分，并且使用的低级计算机芯片（GPU）数量也要少得多。最值得注意的是，DeepSeek 的模型是开源的，其技术细节完全公开，而且向人工智能开发者收取的费用比市场上其他闭源大语言模型要低得多。随着这波热潮逐渐平息，我们可以思考一下 DeepSeek 这次突破的真正意义。

DeepSeek R1 巧妙地利用了现有的网络工具，如专家混合模型、强化学习和数据蒸馏技术，实现了出人意料的推理效率。它首次向用户展示了其推理过程的「思维链」。然而，R1 并没有像反向传播算法和 Transformer 网络那样带来全新的、具有突破性的人工智能技术发明，而后两者分别引发了最近的两次人工智能革命 —— 深度学习和大语言模型。用通俗的话说，它不是从 0 到 1 的发明，而是以空前的速度从 1 到 100 的发展。这种速度宣告了通用人工智能（AGI）的即将到来，通用人工智能指机器在复杂环境中执行各种任务的自学习和泛化能力，这种智能与人类智能相当，甚至超越人类智能。重要的是，DeepSeek 清楚地表明，从 1 到 100 的发展可能比从 0 到 1 的发明产生更重大的影响。

DeepSeek 的大语言模型问世之际，人工智能界大多深信缩放定律，即人工智能模型的性能会随着模型规模、数据集和计算能力的增加而提升。尽管有证据表明这条定律正在接近极限，但中美两国的许多科技巨头仍在要求投资者和政府支持建设越来越大的数据中心，而这些数据中心的能源消耗对社会和环境来说是不可持续的。许多大型数据中心正在建设中，美国总统刚刚宣布为此提供 5000 亿美元的支持。DeepSeek R1 有力地表明，提高计算算法的效率可能是比遵循缩放定律更具吸引力的方法。

用特朗普总统的话说，DeepSeek 的出现「敲响了警钟」，这不仅意味着中国人工智能技术在中美人工智能竞赛中正在迅速追赶，也向全球人工智能界发出了呼吁：人工智能的未来并非只掌握在少数科技巨头手中。一小群研究人员在推动人工智能前沿发展方面也能发挥重要作用。真正的人工智能竞赛如今存在于全球人工智能界的开源文化和人工智能科技公司以利润为导向的闭源文化之间。人工智能技术的「民主化」或许是 DeepSeek 突破最重要的方面。

DeepSeek 也给中国的研究机构敲响了警钟。中国的研究机构获得了大量政府对人工智能研究的资助，并且聘用了绝大多数中国人工智能研究人才。尽管近年来中国人工智能研究人员发表的论文数量惊人地增长，但在人工智能领域真正有影响力的发现或发明仍然稀少，发表有增量价值论文的风气盛行。DeepSeek 的负责人梁文峰学术背景并不突出，也很少被邀请在人工智能学术会议上发言，但他有信心、有胆量去攻克开发通用人工智能这一最重要的难题。这一警钟既令人警醒，也激励着所有努力在世界舞台上有所作为的中国年轻科学家和工程师。

正如梁文峰最近所解释的，DeepSeek 创新文化的关键在于向其研究团队灌输信心，并鼓励自下而上的主动性。像 DeepSeek 这样的小团队在快速闭环互动、朝着既定目标凝聚力量以及团队成员精神联结方面更具效率。大多数中国机构留给等级体系底层年轻人追求自己想法的空间很小。释放年轻研究人员创新才能的途径，例如像麻省理工学院的怀特黑德学者计划和中国科学院神经科学研究所的青年研究员计划所展示的那样，支持极具天赋的应届博士在不做博士后研究的情况下建立独立研究实验室。

尽管 DeepSeek 的突破具有创新性，但它仍处于目前主导人工智能领域的大语言模型框架内。随着计算能力需求达到极限，大语言模型的进一步发展将依赖于更高效的计算算法和网络结构。目前，大多数人工智能研究人员很少关注大脑的工作原理，因为大语言模型在很多方面似乎比人类大脑强大得多，而且大语言模型的应用机会比比皆是。然而，随着通用人工智能越来越接近实现，我们可能不得不更加认真地研究大脑如何实现高效计算，以及人类智能如何体现在一个能够与外界有效互动的系统中。

在类人机器人等物理系统中开发具身通用人工智能，需要软件工程师、生物工程师和神经科学家之间密切的跨学科合作。任务很明确：基于语言的推理和决策大语言模型在输入端需要与包括基于语言的指令在内的多种感官信号的集成感知相连接，在输出端需要与用于执行行为的复杂运动系统相连接。中国脑计划二期（即 2030 年重大科技项目「脑科学与类脑智能技术」）的五年规划正在制定中。在未来五年内，我们期待看到神经科学家和人工智能研究人员密切合作，实现不仅达到人类智能水平，而且符合人类需求的具身通用人工智能。

蒲慕明
《国家科学评论》，执行主编
中国科学院神经科学研究所，脑科学与智能技术卓越创新中心，学术主任

原文链接：
https://academic.oup.com/nsr/advance-article/doi/10.1093/nsr/nwaf044/8010848

我们长期为科研用户提供前沿资讯、实验方法、选品推荐等服务，并且组建了 70 多个不同领域的专业交流群，覆盖PCR、细胞实验、蛋白研究、神经科学、肿瘤免疫、基因编辑、外泌体、类器官等领域，定期分享实验干货、文献解读等活动。

添加实验菌企微，回复【】中的序号，即可领取对应的资料包哦～

【2401】论文写作干货资料（100 页）

【2402】国内重点实验室分子生物学实验方法汇总（60 页）

【2403】2024 最新最全影响因子（20000+ 期刊目录）

【2404】免疫学信号通路手册

【2405】PCR 实验 protocol 汇总

【2406】免疫荧光实验 protocol 合集

【2407】细胞培养手册

【2408】蛋白纯化实验手册

【2501】染色体分析方法汇总

【2502】国自然中标标书模板

【2503】WB 实验详解及常见问题解答

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.