网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源惠四方(科技名家笔谈)

0
分享至

李国杰

作者李国杰肖像画。 张武昌绘

受到热烈欢迎

业界纷纷部署

近期,中国杭州深度求索人工智能基础技术研究有限公司推出AI语言大模型DeepSeek,受到用户热烈欢迎。2025年1月20日,DeepSeek-R1发布上线,7天内用户超过1亿。ChatGPT从发布到达到相同的用户规模用时两个月。

GitHub是全球最大的代码托管网站,GitHub的星数即GitHub平台项目页面上的Star按钮被用户主动点击的次数,代表受欢迎程度和社区认可度。目前,DeepSeek的GitHub星数已超越了同类大模型的GitHub星数。

值得一提的是,DeepSeek赢得一批国际知名企业特别是全球人工智能企业的青睐。微软率先宣布将DeepSeek-R1模型添加到云平台Azure AI Foundry,开发者可用于构建基于云的应用程序和服务。之后,亚马逊云科技、英伟达、超微半岛等公司宣布在其AI服务平台上部署DeepSeek-R1模型。

实现技术突破

走出发展新路

DeepSeek受到赞誉和认可,但也有舆论认为,与ChatGPT实现从“0到1”的突破不同,DeepSeek只是实现了从“1到N”的扩展。

对此,笔者并不认同,因为这种看法不符合人工智能研究的特点及创新发展的历史轨迹。人工智能创新不同于物理学等基础理论研究。物理学中的牛顿定律和爱因斯坦发现的相对论是从“0到1”的突破,但人工智能是一个没有严格定义的研究领域,并不存在“智能”和“不智能”之间“0”和“1”的界限,只有智能化水平不断提高的创新发展过程。

笔者认为,DeepSeek推出的V3和R1模型既是技术上的重大突破,也是发展模式上的重大创新,是人工智能发展史上重大事件,可以与OpenAI发布ChatGPT3.5相提并论。DeepSeek以高效率、低成本的推理模型和开源的商业模式走出一条发展人工智能的新路。

坚持历史视角

准确看待价值

准确认识DeepSeek的价值和贡献,必须坚持历史视角,将其放在人工智能创新发展的历程中来看待。

1943年,美国科学家麦卡洛克和皮茨提出神经元计算模型,开创了神经网络研究的先河,开启人工智能创新发展的漫长探索历程。本世纪第二个十年,基于神经网络模型的第三波人工智能浪潮涌起并接连迎来多个里程碑式事件。

2012年,在ImageNet大规模视觉识别挑战赛上,辛顿等人创建的AlexNet卷积神经网络模型大放异彩。这被看作第三波人工智能浪潮的起点。在此4年之后,DeepMind研制的AlphaGo围棋程序战胜世界冠军,引起了全世界的瞩目。

2017年,谷歌的几名专家提出Transformer模型,提出自注意力机制,成为深度学习的主流模型。

2018年,DeepMind发布了AlphaFold,在蛋白质结构预测中展示出惊人的能力,开辟了AI for Science(人工智能驱动科技创新)的新方向。

2022年,OpenAI发布ChatGPT3.5,引领了以大语言模型(LLM)为标志的生成式人工智能新浪潮。

近日,DeepSeek上线,成为上述重大事件之后,第三波人工智能创新发展浪潮的又一重大事件。

采用创新算法

提升运行效率

DeepSeek广受欢迎,是因为在模型算法和系统软件层次都有重大创新。那么这些重大创新具体体现在哪些方面呢?

算法创新是DeepSeek的重要贡献之一。DeepSeek大模型采用新的混合专家架构(MoE),每一层有256个路由“专家”和1个共享“专家”。在每次前向传播过程中,只激活一小部分“专家”来进行计算。虽然DeepSeek-V3是一个671B参数的大模型,但模型的任何函数调用和传递只使用约37B参数,使其训练成本大为降低。

在算法层面,DeepSeek还有一个降低成本的重大创新,即低秩注意力机制(也称为多头潜在注意力机制)。这一发明对巨大的注意力机制矩阵进行了压缩,减少参与运算的参数数量,大大降低了显存占用,由此提升了模型运行效率。

减少推理成本

降低开发门槛

在推理层面的创新是DeepSeek另一个重大贡献。OpenAI发布的o1推理模型是闭源的,其他企业无法了解OpenAI是如何基于预训练模型构建推理模型的。通过开源方式,DeepSeek揭示了实现低成本推理的奥秘,为发展推理模型开辟了一条新路。DeepSeek揭示了一个事实,即推理模型的开发比想象中更为简单,门槛实际上并不是那么高,各行各业均可以做。

传统的强化学习需要大量标注数据,成本很高。DeepSeek另辟蹊径,以全自动的强化学习取代监督微调和基于人类反馈的强化学习,用机器直接推测的方式来预测分数,显著提高了强化学习的效率。

DeepSeek通过工程创新和优化,降低了推理成本,打破了人工智能领域长期以来对高算力的迷信,对人工智能产业的发展具有重大意义。

便捷本地部署

促进技术应用

DeepSeek在模型算法和工程优化方面所进行的系统级创新,为在受限资源下探索通用人工智能开辟了新路。传统大模型遵循的是一条“由通到专”的人工智能发展思路,与之相反,DeepSeek追求的是“由专到通”的人工智能发展路径,通过引领人工智能技术生态的形成,迈向全社会分享的通用人工智能之路。

虽然以OpenAI为代表的生成式人工智能红红火火,但多数企业不敢将自己的数据交给私有AI平台生成自己的垂直模型,因为担心提交的数据会泄露自己的技术机密。这可能是导致人工智能在很多行业难以落地和应用的重要原因之一。

DeepSeek的出现化解了上述难题。人工智能领域的研究者可以将DeepSeek提供的小而精的模型下载到本地,即使断网也可以“蒸馏”出高效率的垂直模型,从而增强当地人工智能创新发展的能力。

人工智能不同于资本密集型和经验积累型的集成电路产业,不仅要“烧钱”,而且要“烧脑”,本质上是比拼人的智力的新兴产业。因此,人工智能产业具有明显的不对称性,一个具有100多个聪明头脑的小企业完全可以与市值上万亿美元的龙头企业展开有力竞争。

突破规模法则

引发行业思考

规模法则是指人工智能模型在推理阶段(而非训练阶段)通过增加计算资源即算力来提升性能。在AI领域,规模法则被认为是“公理”,俗称“大力出奇迹”,OpenAI等龙头企业和美国的AI投资界将其当成制胜法宝。但是,规模法则不是像牛顿定律一样经过无数次验证的科学定律,而是OpenAI等公司近几年研制大模型的经验归纳。规模法则从科学研究的角度看,属于对技术发展趋势的猜想,从投资的角度看,属于对某种技术路线的押注,包含难以克服的局限性。

人工智能是对未来技术的探索,探索路径存在多种可能。人工智能本身也存在多元化的目标,探索的道路上有很多高山需要去攀登,攀登一座高山的路径也不止一条。把一条道路或猜想当成科学“公理”本身就不是科学的态度。

规模法则的倡导者,常以“强化学习之父”理查德·萨顿的文章《苦涩的教训》作为追求高算力的依据:“研究人员曾一次又一次试图通过精巧的工程设计来提升性能,但最终都败给了简单粗暴的‘加大算力’方案,历史证明,通用方法总是在AI领域胜出。”

最近两年,萨顿本人对规模法则做了深刻反思。他指出,虽然规模法则在提升模型性能方面确实有效,但它并不是解决所有问题的万能钥匙。AI系统不仅需要具备强大的计算能力,还需要具备持续学习、适应环境、理解复杂情境等能力,而这些往往难以通过简单地增加算力来实现。

图灵奖得主杨立昆和OpenAI前首席科学家伊利亚·苏茨克维等人甚至直言,规模法则已触及天花板。

DeepSeek的出现,促使全球AI界严肃地思考这一技术发展路线问题:是继续烧钱豪赌,还是另辟蹊径,在算法优化上下更多功夫?

DeepSeek的成功在一定程度上表明“小力也能出奇迹”“算法和模型架构优化也能出奇迹”。随着时间的推移,AI扩展方法也在发生变化:最初是模型规模,后来是数据集大小和数据质量,目前是推理时间和合成数据。

算力不容忽视

走好绿色之路

DeepSeek-R1是推理模型,从某种意义上说,它把业界对人工智能的关注重点从规模法则转移到推理计算上。

如果就此断言规模法则已经走到尽头,也是没有根据的。与人脑的神经连接复杂性相比,现在的人工神经网络至少还有上百倍的差距,继续扩大神经网络的规模和增加训练的数据量是非常必要的,但能否取得与投入相称的回报,还要看今后的实际效果。

DeepSeek的成功并没有否定算力在人工智能发展中的关键作用。实际上,由于用于推理的设备大幅多于训练设备,所以推理所需要的算力将来会成为主要需求。通过算法优化提高模型的效率十分重要,算力是解决人工智能问题的必要条件,不容忽视,而走节省算力的绿色发展之路是我们的必然选择。

(作者李国杰为中国工程院院士,长期从事计算机体系结构、并行算法、人工智能等研究,获首届何梁何利基金科技进步奖,主持取得的科研成果获国家科学技术进步奖一等奖等。本文由尹振茂根据作者表述整理)

中国科协科学技术传播中心、陈家庚科学奖基金会与本报合作推出

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
受权发布|中华人民共和国国务院令  第833号

受权发布|中华人民共和国国务院令  第833号

新华社
2026-03-26 17:03:04
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
以牙还牙!欧盟冻结对匈牙利160亿援助,投降俄军助乌军消灭150人

以牙还牙!欧盟冻结对匈牙利160亿援助,投降俄军助乌军消灭150人

史政先锋
2026-03-26 20:22:48
翻到张雪峰2016年婚纱照,瞬间看哭了!

翻到张雪峰2016年婚纱照,瞬间看哭了!

魔都姐姐杂谈
2026-03-26 22:06:50
到底有多无知,才能做出这样的判决!

到底有多无知,才能做出这样的判决!

槽三刀
2026-03-25 22:01:04
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

趣生活
2026-03-26 22:16:24
刘晓庆外甥否认吃绝户!怒斥刘晓庆造谣,承认有矛盾希望私下解决

刘晓庆外甥否认吃绝户!怒斥刘晓庆造谣,承认有矛盾希望私下解决

萌神木木
2026-03-26 13:31:02
马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

影孖看世界
2026-03-26 23:28:51
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

知法而形
2026-03-26 17:28:20
没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

岁月有情1314
2026-03-26 12:13:10
日本东京商业区发生持刀伤人事件2人死亡

日本东京商业区发生持刀伤人事件2人死亡

新华社
2026-03-26 21:10:15
盲目的大学扩招,正在反噬整个社会

盲目的大学扩招,正在反噬整个社会

凡人志
2026-03-25 01:34:53
2026-03-27 04:47:00
人民网 incentive-icons
人民网
报道全球 传播中国 人民网股份有限公司
447899文章数 1182031关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
艺术
旅游
本地
教育

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

教育要闻

2026年高考可能“扎堆报考”的五大专业:就业缺口大,稳定且高薪

无障碍浏览 进入关怀版