网易首页 > 网易号 > 正文 申请入驻

关于DeepSeek,面壁智能创始人刘知远最新发声!

0
分享至

  

  【导读】面壁智能联合创始人、首席科学家刘知远称,DeepSeek -R1让AI界迎来类似于2023年初的ChatGPT时刻

  中国基金报记者尹振茂

  2025年1月底以来,DeepSeek在国内外持续火爆,受到业内外广泛关注。

  日前,中国基金报记者专访面壁智能创始人、首席科学家刘知远,请其详细阐释DeepSeek火爆出圈的原因。

  

  在刘知远看来,OpenAI o1相当于引爆了一颗原子弹,但没有告诉大家秘方。DeepSeek则可能是全球首个能够通过纯粹的强化学习技术复现OpenAI o1能力的团队,他们通过开源并发布相对详细的介绍,为行业发展做出了重要贡献。

  由于开源,DeepSeek -R1让全世界意识到深度思考的能力,相当于让整个人工智能领域迎来了类似于2023年初的ChatGPT时刻。大家感受到大模型的能力又往前迈进了一大步。

  刘知远指出,人工智能大模型领域存在一个大模型密度定律,即模型能力密度随时间呈指数级增强。2023年以来,大模型的能力密度大约每100天翻一倍,即每过100天,我们只需要一半的算力和一半的参数就能实现相同的能力。

  刘知远称,我们即将迎来意义深远的智能革命,它的高潮即将到来,这是可望且可及的。

  以下是此次专访的全文。

  中国基金报:近期DeepSeek在国内外受到广泛关注,请详细谈谈主要原因是什么?

  刘知远:这主要是因为DeepSeek最近发布的R1模型具有非常重要的价值。这种价值主要体现在其能够复现OpenAI o1的深度推理能力。

  因为OpenAI o1本身并没有提供关于其实现细节的任何信息,OpenAI o1相当于引爆了一颗原子弹,但没有告诉大家秘方。而我们需要从头开始,自己去寻找如何复现这种能力的方法。DeepSeek可能是全球首个能够通过纯粹的强化学习技术复现OpenAI o1能力的团队,并且他们通过开源并发布相对详细的介绍,为行业发展做出了重要贡献。

  DeepSeek -R1的整个训练流程,有两个非常重要的亮点或价值。

  首先,DeepSeek R1创造性地基于DeepSeek V3基座模型,通过大规模强化学习技术,得到了一个纯粹通过强化学习增强的强推理模型,即DeepSeek-R1-Zero。这具有非常重要的价值。因为,在历史上几乎没有团队能够成功地将强化学习技术很好地应用于大规模模型上,并实现大规模训练。

  DeepSeek R1的第二个重要贡献,在于其强化学习技术不仅局限于数学、算法代码等容易提供奖励信号的领域,还能创造性地将强化学习带来的强推理能力泛化到其他领域。这也是用户在实际使用DeepSeek- R1进行写作等任务时,能够感受到其强大的深度思考能力的原因。

  综上,DeepSeek -R1的贡献体现在两个方面:一是通过规则驱动的方法实现了大规模强化学习;二是通过深度推理SFT数据与通用SFT数据的混合微调,实现了推理能力的跨任务泛化。这使得DeepSeek -R1能够成功复现OpenAI o1的推理水平。

  

  而且,由于开源,DeepSeek -R1让全世界意识到深度思考的威力。人工智能领域迎来了类似于2023年初的ChatGPT时刻。每个人感受到大模型的能力又往前迈进了一大步。

  不过,我们也需要合理评估DeepSeek -R1的意义。它在历史上更像是2023年Meta的LLaMA。

  中国基金报:DeepSeek R1能够取得全球性成功的原因有哪些?

  刘知远:这与OpenAI采用的某些策略有非常大的关系。

  OpenAI发布o1之后,首先选择不开源;其次,它将o1深度思考的过程隐藏起来,第三,o1本身收费非常高。全球范围内仅有限的人可通过o1感受到深度思考所带来的震撼。

  而DeepSeek R1则像2023年初OpenAI的ChatGPT一样,让所有人真正感受到了这种震撼,这是DeepSeek R1出圈的重要原因。

  如果我们将DeepSeek发布的R1和之前的V3结合起来考虑,那么它的意义在于:在有限的算力资源支持下,通过强大的算法创新,突破了算力瓶颈。它表明在有限的算力下,人工智能公司也能做出具有全球意义的领先成果。

  这对中国AI的发展具有非常重要的意义。

  当然,我们也应该看到,AI想要真正赋能全人类,让每个人都能够用得上、用得起大模型和通用人工智能,高效性是一个非常重要的命题。这也是DeepSeek- V3和R1带给我们的另一个重要的启示。追求高效性是人工智能发展内在的使命和需求。

  我们看到,上一次的科技革命,即信息革命非常重要的内核是计算芯片的发展。

  在过去的80年中,最初,一台计算机需要一个屋子才能装得下如今,每个人手边都有的手机、PC,以及各种计算设备都可以在非常小的设备上完成非常强大的计算能力。

  这一切都源于芯片行业在摩尔定律的指引下,不断推进芯片制程,提升芯片电路密度,从而实现计算设备的小型化和普惠化,推动算力的普及。这是我们追求高效性的内在需求。

  

  2024年以来,我们就特别强调要发展大模型的能力密度。

  过去几年,我们可以看到类似摩尔定律的现象,大模型的能力密度正随时间呈指数级增强。2023年以来,大模型的能力密度大约每100天翻一倍。也就是说,每过100天,我们只需要一半的算力和一半的参数就能实现相同的能力。

  

  因此,面向未来,我们应该不断追求更高的能力密度,努力以更低的成本——包括训练成本和计算成本——实现大模型的高效发展。

  因此,我们认为,智能革命显然也要走过一个类似于信息革命的阶段,不断去提高能力密度、降低计算成本。AI时代的核心引擎,包括电力、算力以及大模型所代表的智力,这种密度定律应该也是普遍存在的。我们需要不断通过高质量、可持续的方式,去实现大模型的普惠,这是我们未来的发展方向。

  面向未来,我们认为,人工智能有三大主战场,它们的目标都是让通用人工智能达到顶尖水平。

  首先,我们要探索人工智能的科学化技术方案,实现更科学、更高效的人工智能实现方式。

  其次,我们要实现计算系统的智能化,能够在计算层面以更低的成本、更通用地将大模型应用于各个领域。

  第三,我们也要在各个领域探索人工智能的广谱化应用。

  最后,DeepSeek还让我们看到,即使用小米加步枪,我们依然能够取得重大胜利。我们即将迎来意义深远的智能革命时代,它的高潮即将到来,这是可望且可及的。

  中国基金报:DeepSeek-R1在这个时间点出现并如此出圈,是一种偶然还是具有某种必然性?

  刘知远:它具有一定的必然性。

  2024年,很多投资人,甚至一些不从事人工智能的人都问过我一个问题:中美人工智能发展的差距是在变大还是变小。

  我当时表示,中国正在快速追赶,与美国最先进的技术之间的差距在逐渐缩小。尽管我们仍面临一些限制,但这种追赶是显而易见的。

  2023年初,ChatGPT和其后GPT-4发布后,国内团队复现这两个版本的模型大概都花了一年时间。2023年底,国内团队复现了ChatGPT水平的模型能力;去年四五月份,一线团队复现了GPT-4水平的能力。

  但此后,像Sora、GPT-4o的模型,国内团队大概半年内就可以完成复现。这意味着,o1的模型能力,国内团队在半年左右复现是可预期的。

  DeepSeek的价值不仅在于能够复现,还在于能够更快、以更低成本、更高效地完成工作。从这个角度看,我认为DeepSeek- R1现在出现有一定的必然性。

  编辑:格林

  校对:乔伊

  制作:舰长

  审核:木鱼

  版权声明

  《中国基金报》对本平台所刊载的原创内容享有著作权,未经授权禁止转载,否则将追究法律责任。

  授权转载合作联系人:于先生

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
汪希玥姐弟缺席大S葬礼,被继母带去做手工,S妈生气的原因找到了

汪希玥姐弟缺席大S葬礼,被继母带去做手工,S妈生气的原因找到了

娱慧
2025-03-17 16:35:14
武统、和统都没希望?台湾军事专家:中国大陆已经走上第三条路

武统、和统都没希望?台湾军事专家:中国大陆已经走上第三条路

睿鉴历史
2023-08-25 12:00:02
人的恶意有多大?谢浩男才认亲3天,一场阴谋论正在悄悄上演

人的恶意有多大?谢浩男才认亲3天,一场阴谋论正在悄悄上演

娱小北
2025-03-17 12:24:57
沙特媒体:中国新一期男足,他们身材高大,用冲击力战胜科威特

沙特媒体:中国新一期男足,他们身材高大,用冲击力战胜科威特

百里无心
2025-03-17 07:32:32
赖清德都喊出大陆是“境外敌对势力”了!为什么我们还不动手呢?

赖清德都喊出大陆是“境外敌对势力”了!为什么我们还不动手呢?

翻开历史和现实
2025-03-16 16:06:36
【2025.3.17】爆姐的饭后爆料:生命不止,爆料不息!

【2025.3.17】爆姐的饭后爆料:生命不止,爆料不息!

娱乐真爆姐
2025-03-17 23:11:44
美国向欧洲多国询问是否可供应鸡蛋

美国向欧洲多国询问是否可供应鸡蛋

财联社
2025-03-16 21:06:06
孙颖莎大胜陈幸同!相比之下2次赢王艺迪更重要,彻底进化成女王

孙颖莎大胜陈幸同!相比之下2次赢王艺迪更重要,彻底进化成女王

时刻体育正版
2025-03-17 23:54:18
感谢国际足联!中国男足获高规格“重视”,决战沙特队,可期可待

感谢国际足联!中国男足获高规格“重视”,决战沙特队,可期可待

何老师呀
2025-03-17 10:24:11
马斯克的自我救赎

马斯克的自我救赎

求实处
2025-03-15 23:30:21
突发重大利好,这一次股市要突破了

突发重大利好,这一次股市要突破了

磐石之心
2025-03-17 08:33:31
麦琳,黑红的报应,终于还是来了……

麦琳,黑红的报应,终于还是来了……

娱乐白名单
2025-03-17 00:26:33
青海省委书记、省长和雷军座谈,背后是一项重要布局

青海省委书记、省长和雷军座谈,背后是一项重要布局

政知新媒体
2025-03-16 20:49:03
相沢みなみ(相泽南)结婚了!老公是演日本艺圈的大咖!

相沢みなみ(相泽南)结婚了!老公是演日本艺圈的大咖!

孤独的独角兽影视
2025-03-17 16:40:43
A股,大家要有所准备,明天周二股市很可能会这样走

A股,大家要有所准备,明天周二股市很可能会这样走

明心
2025-03-17 14:29:29
“体检根本无意义”!中国科协主席惊人之语,引发争议!

“体检根本无意义”!中国科协主席惊人之语,引发争议!

人间颂
2025-03-16 12:46:09
成都楼市全军覆没,成都楼市天府新区房价从2.3万调整为1.9万

成都楼市全军覆没,成都楼市天府新区房价从2.3万调整为1.9万

有事问彭叔
2025-03-16 16:51:53
普京终于同意了!全世界都松了一口气:俄乌终于要停火了

普京终于同意了!全世界都松了一口气:俄乌终于要停火了

娱乐的宅急便
2025-03-17 14:39:36
南方小姐姐:北方搓澡真要扒开搓吗?网友:不仅扒开还要拎起来搓

南方小姐姐:北方搓澡真要扒开搓吗?网友:不仅扒开还要拎起来搓

美好客栈大掌柜
2024-12-21 00:05:17
香港地产之王李兆基,驾鹤西去

香港地产之王李兆基,驾鹤西去

易简财经
2025-03-17 23:07:36
2025-03-18 01:27:00
中国基金报 incentive-icons
中国基金报
洞察金融市场,传播中国价值——《中国基金报》社官方账号(《中国基金报》社有限公司运营管理)
48085文章数 516171关注度
往期回顾 全部

科技要闻

李开复放弃万亿大模型,靠DeepSeek赚ToB钱

头条要闻

美民主党支持率跌至历史新低 支持者:我们只看到妥协

头条要闻

美民主党支持率跌至历史新低 支持者:我们只看到妥协

体育要闻

和死神擦肩而过,她用金牌拥抱 ”爱人”

娱乐要闻

金秀贤曾二次发函威胁金赛纶,家属考虑起诉他

财经要闻

Deepseek"利润神话":大模型盈利何处去

汽车要闻

丰田宣布将推出三款全新电动车 包括一款电动皮卡

态度原创

艺术
健康
亲子
教育
手机

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

痛经?不孕不育?妇科问题不再忧心

亲子要闻

你俩是不是商量好了~

教育要闻

大学毕业的小学生家长们,你现在可以辅导小学生吗?真累啊

手机要闻

游戏党狂喜!真我升级旁路充电功能,电池寿命将延长20%?

无障碍浏览 进入关怀版