网易首页 > 网易号 > 正文 申请入驻

起底DeepSeek:私募基金下场做AI,“中国模式”跻身全球前三

0
分享至

1月26日—27日,短短两天内,国内AI创业公司DeepSeek(深度求索)遭遇两次短暂宕机,DeepSeek将其归因为,新模型发布后导致访问量激增。

新模型指的是刚发布的推理大模型DeepSeek-R1,由此带来的访问量有多大?27日,DeepSeek在苹果美区应用商店下载量力压ChatGPT,登顶免费App下载排行榜。

几乎名不见经传的创业公司,一年多时间内成为大模型行业的“黑马”,是否意味着国内大模型迎来了弯道超车的机会?

好用又便宜

2024年12月,DeepSeek发布了新一代大语言模型V3,已引起行业不少讨论,但1月20日发布的R1,将DeepSeek的热度推向了高潮。

国外大模型排名榜单Arena最新测评显示,R1基准测试在全类别大模型中排名第三,其中在风格控制分类中与OpenAI o1并列第一,其竞技场得分达到1357分,甚至略超OpenAI o1。这也几乎意味着,DeepSeek-R1跻身全球最强大模型之列。

DeepSeek的官方测试也显示,R1在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1正式版。在各自小参数版本的模型比拼中,R1-32B与o1-mini的表现各有胜负,其中前者的数学推理明显优于后者。

DeepSeek-R1性能对齐OpenAI-o1。

DeepSeek的横空出世,让硅谷多位AI大佬刮目相看,无论是微软CEO还是OpenAI的投资人都公开表达,DeepSeek-R1作为开源模型在推理计算能力的出色表现,令人印象深刻。而《黑神话:悟空》主创成员冯骥在使用R1后指出了六大优势:强大、便宜、开源、免费、联网和本土。其中,便宜、免费、联网等优势全面超越了OpenAI、Meta、Google等AI巨头。

免费和联网都好理解,DeepSeek有多便宜?推理模型R1的API(编程接口)服务定价为每百万tokens(词元)仅需1元(缓存命中)/4 元(缓存未命中),每百万输出tokens为16元。大语言模型V3就更便宜了,每百万tokens仅需0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens为2元。DeepSeek的定价约等于Llama 3-70B的七分之一,GPT-4 Turbo的七十分之一。

或许大家还记得,2024年5月国内大模型掀起了一股降价潮,不少大模型的API价格下调90%以上,DeepSeek便是第一家降价的大模型,也被称为AI界的“拼多多”。

展现本土技术优势

便宜又好用的大模型,为何诞生在一家成立仅1年半的创业公司?这就不能不提到,DeepSeek与生俱来的算力优势和技术优势。

天眼查信息显示,DeepSeek背后的实控人是梁文锋,他所创立的幻方量化是国内知名的量化私募基金,这也给DeepSeek打下了良好的算力基础。

不同于常规基金依赖基金经理,量化基金通过数量模型的计算寻找投资机会,因此对数据尤为敏感,其高频交易的特点更是离不开机器学习。为了从海量数据中挖掘投资机会,幻方量化早早开始囤积算力,先后斥资10亿元,在美国对芯片出口管制前购买了1万张英伟达A100型号GPU。机缘巧合下,幻方量化成为国内GPU算力最充足的企业之一。

DeepSeek登顶App Store美区榜首。

AI行业有条Scaling Law(规模化法则),指的是大模型的性能与其训练资源、数据集和参数规模存在正相关性,也就是说,算力越大、参数越多,训练出的大模型性能就越好。如果遵照Scaling Law的规则,幻方量化的算力基础,成了DeepSeek最大的王牌之一。

当然,光靠算力优势,DeepSeek显然无法与全球AI巨头抗衡。“DeepSeek爆火主要是创新的技术路线。”上海人工智能行业协会秘书长钟俊浩认为,架构机制、训练方法和管道并行算法等创新,展现了中国本土AI技术的潜力,颠覆了中国只是AI技术跟随者、应用方的传统认知。

根据DeepSeek公布的技术论文显示,R1在训练过程中实验了三种技术路径:直接强化学习、多阶段渐进训练和模型蒸馏,其中R1首次证明了直接强化学习的有效性。科技媒体在技术解读中打了个比方,面对同一道题目,大模型同时多次进行回答,系统将给每个答案打分,依照“高分奖励低分惩罚”的逻辑进行循环,最终得出更具优势的推理路径。

与此同时,Deepseek还采用了混合专家模型(MoE)创新架构,只需激活5%—10%的专家网络,大幅降低了大模型训练的算力要求,同时还采取了FP8混合精度训练,减少模型训练的显存占用量。

本着“该省省该花花”的训练思路,DeepSeek最新大语言模型V3的训练成本仅为558万美元,不足GPT-4o的二十分之一。

下一个赛道

从OpenAI o1开始,豆包、通义等都陆续发布了推理大模型DeepSeek-R1的加入,将这场推理竞赛推向白热化。

“人工智能技术的发展具有其内在逻辑,主要体现为实现从‘记忆’到‘思考’的跨越,一定程度上解决逻辑上的‘幻觉’问题。”钟俊浩认为,早期大模型的核心能力是海量知识的压缩存储与模式匹配,就像是“填鸭式”教育,把大量的知识都背出来,核心考核的是知识记忆的规模和调取的效率。“死记硬背”的模式有其优势,给答案很快,但是也有问题,看到的材料写什么就输出什么,缺乏深度思考,缺乏进一步的甄别判断能力,容易人云亦云。

而推理能力需要模型具备动态规划、因果推断和符号逻辑处理能力。OpenAI的o1通过改进架构和训练方法,使模型逐步从“鹦鹉学舌”转向“解题专家”。

在长文本交互和多模态的全球竞争中,国内大模型已经崭露头角,随着大模型推理能力的迭代,中国还有机会弯道超车。钟俊浩认为,高效利用计算资源、相对较低的成本,以及更高的市场活跃度,是国内训练推理大模型的优势所在。

“推理模式所需的处理数据量相对较小,对高性能集成电路算力芯片的需求强度相对减少。”他表示,国内面临高端算力芯片紧缺的难题,但推理大模型能更集约利用有限的算力资源,同时国内算力基础设施较为完备,训练硬件成本较低。

更重要的是,中国的人工智能市场处于开放竞争的状态,不仅有阿里、字节、商汤等大型AI厂商,还有阶跃星辰、MiniMax等高水平的AI创业企业,而美国则集中在微软、谷歌等巨头。更多市场参与者,就有更多创新想法,意味着市场更活跃。

此外,中国具有极强的政策引导能力。以上海发布“模塑申城”实施方案为例,进一步明确了“5+6”应用场景,为人工智能企业在推理方面的应用,拓宽了发展空间,从而引导市场形成,加速商业化进程。

上观新闻·解放日报原创稿件,未经允许严禁转载

作者: 查睿

微信编辑:泰妮

校对:daxi

◢ 猜你喜欢↓↓

更多精彩内容,请点击下载

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他是导致台湾难以收复的关键人物,若不是他,台湾或许早就解放了

他是导致台湾难以收复的关键人物,若不是他,台湾或许早就解放了

观史搜寻着
2026-04-17 22:43:50
金像奖成功收官:四大尴尬,三大暖心,两个意外发现,谢霆锋赢麻

金像奖成功收官:四大尴尬,三大暖心,两个意外发现,谢霆锋赢麻

八斗小先生
2026-04-20 16:37:47
曼联百年最差引援!斯科尔斯亲口点名:他连球都踢不明白

曼联百年最差引援!斯科尔斯亲口点名:他连球都踢不明白

一隅非生
2026-04-22 06:25:10
祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

凡知
2026-04-22 10:04:20
黑粉攻击何润东风波升级!博主怒撕:蹭热度该适可而止,又老又丑

黑粉攻击何润东风波升级!博主怒撕:蹭热度该适可而止,又老又丑

小徐讲八卦
2026-04-19 15:19:03
机会来了!曼城获胜必可反超阿森纳,利兹取胜则保级无忧

机会来了!曼城获胜必可反超阿森纳,利兹取胜则保级无忧

嗨皮看球
2026-04-22 12:57:46
美媒:伊朗最高领袖穆杰塔巴已批准同美方进行谈判,白宫20日一整天都在等德黑兰,如出现进展迹象,特朗普也可能同意延长停火期限

美媒:伊朗最高领袖穆杰塔巴已批准同美方进行谈判,白宫20日一整天都在等德黑兰,如出现进展迹象,特朗普也可能同意延长停火期限

极目新闻
2026-04-21 09:44:58
52岁大妈再婚3个月就果断离婚,坦言道:他心里只有风花雪月

52岁大妈再婚3个月就果断离婚,坦言道:他心里只有风花雪月

烙任情感
2026-04-21 11:11:28
4500万人恐断粮!美国深夜求援中俄:粮食红线被踩化肥紧缺超黄金

4500万人恐断粮!美国深夜求援中俄:粮食红线被踩化肥紧缺超黄金

闻识
2026-04-22 01:12:59
三百年的行书天花板,这字美得无可挑剔,启功也自嘲仅学得皮毛

三百年的行书天花板,这字美得无可挑剔,启功也自嘲仅学得皮毛

幸福娃3790
2026-03-03 11:47:28
蓝眼北京人控诉陈丽华20余年,比女首富更该铭记

蓝眼北京人控诉陈丽华20余年,比女首富更该铭记

老蝣说体育
2026-04-19 17:40:22
局势正在恶化,日本高调宣布,高市为战争做准备,30国帮手全到了

局势正在恶化,日本高调宣布,高市为战争做准备,30国帮手全到了

混沌录
2026-04-20 16:38:07
不到24小时,日本面临双重麻烦,高市陷绝境:连个能帮忙的都没有

不到24小时,日本面临双重麻烦,高市陷绝境:连个能帮忙的都没有

椰青美食分享
2026-04-21 17:45:03
若没有此人,中国历史或将改写!晚年离休后享受什么待遇?

若没有此人,中国历史或将改写!晚年离休后享受什么待遇?

史之铭
2026-04-19 15:49:20
歼-10CE 进驻德黑兰,以色列战机瞬间不敢嚣张

歼-10CE 进驻德黑兰,以色列战机瞬间不敢嚣张

利刃号
2026-04-20 20:06:52
央视官宣!4月27日

央视官宣!4月27日

鲸探所长
2026-04-22 11:55:43
刘德华2027内地巡演官宣,包括上海、广州、北京等六城!

刘德华2027内地巡演官宣,包括上海、广州、北京等六城!

极目新闻
2026-04-22 12:03:51
刚刚!ChatGPT Images 2.0突然发布,实测强得离谱

刚刚!ChatGPT Images 2.0突然发布,实测强得离谱

雷科技
2026-04-22 09:39:47
第一次对「铝箔纸」产生了敬意!以为烘焙专用,没想到是家居神器

第一次对「铝箔纸」产生了敬意!以为烘焙专用,没想到是家居神器

装修秀
2026-04-18 11:55:03
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
2026-04-22 13:12:49
上观新闻 incentive-icons
上观新闻
站上海,观天下
470602文章数 760960关注度
往期回顾 全部

科技要闻

凌晨突发!ChatGPT Images 2.0发布

头条要闻

KTV服务员被指强奸14岁女生 官方通报

头条要闻

KTV服务员被指强奸14岁女生 官方通报

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

四款全球首秀+AI落地 大众汽车集团在华转型全面提速

态度原创

健康
房产
手机
游戏
本地

干细胞抗衰4大误区,90%的人都中招

房产要闻

狂抢284轮!中海海口再拿重磅宅地!

手机要闻

小米卢伟冰:REDMI K90 Max官方300元的内存补贴会尽量延续

预计680元起 黑旗RE典藏版内容曝光!雕像等超多好礼

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

无障碍浏览 进入关怀版