网易首页 > 网易号 > 正文 申请入驻

屌炸天!幻方打出大模型“性价比”王牌!美国专家如何看DeepSeek V3?

0
分享至

先看两篇小作文:

1,割韭菜的镰刀厉害了

2,算力下跌为什么?

那么,美国专家如何看待幻方DeepSeek V3?

一、AI教育专家Nate Jones观点

以前,像 GPT-4、Sonic 3.5这样的模型,制作成本高达1亿美元、7000万美元。但截至本周,这个数字已经不对了,截至本周,成本是 500万美元。

现在有一款模型,其训练成本大约比ChatGPT4低10倍,甚至可能不止10倍,这可是件大事,尤其是因为该模型的开发者将其开源了,而且连相关论文也开源了,你可以看到他们所做的一切。

这款模型叫 DeepSeek V3,它的标志是一只可爱的小鲸鱼,他们能用500万美元的预算做到现在这样的成果,真的令人难以置信。

可以说,在编码、英语、中文、数学等方面它比Sonic和Chat GPT 4都更出色。他们精心挑选了这些具有高价值的应用场景,然后坚持不懈地去钻研。

他们是怎么做到的呢?首先,他们非常谨慎地挑选训练数据,他们之前有一个模型,对其进行了精心打磨,所以有了非常优质的训练数据作为基础。然后,他们在训练方式上效率极高,采用了一种叫做双管道”(dual pipe)的特殊技术,我已经在Tiktok视频里尝试解释过几次了,但好像解释不通。

简单来说,基本上可以把这个模型想象成在学习的同时,通过一种特殊公式将所学内容反馈出来,当然这只是一种非常简化的说法实际上有一整篇论文来阐述它。

除此之外,在更高效训练的基础上,他们在处理查询方面也做得更好。所以当你提出问题时,它实际上并不会调用整个模型(总共6170亿个参数),而是会选取370亿个对你的问题有意义的参数来响应。

这听起来参数数量依然很多,但只选取模型的一部分参数,会让实际使用的效率大大提高,而且事实证明这样做并不会影响性能前提是你知道如何选取正确的参数,这可以算是他们的一个秘诀,而他们把这个秘诀也开源了,这挺酷的。

他们做的另一件非常高效的事是会提前预测两个词元(tokens),这可能有风险,但就这个情况而言,他们对自己输出内容的准确性很有信心,所以提前预测两个词元是合理的。

大多数模型只提前一个词元,比如大多数模型都只提前预测你说“狗来到门前”,这就是提前预测一个词元;如果说“狗来到门前,并且……”这就是提前预测两个词元了。

所以他们在做提前预测两个词元这件事这意味着他们对训练数据的质量很有信心对给出的答案也很有把握。

所以现在,它超越了Sonic,也超越了ChatGPT。我得赶紧补充一下,它和那种推理时间较长、需要大量时间来回答问题的计算模型(比如01、01 Pro、03,这类模型会同时运行大量并行的词元线程)不一样。

它属于Chat GPT 4这一类模型,先在大量数据上进行预训练,然后接收查询请求在向量超空间中查找并返回响应他们做了一些了不起的事来提高效率。

实际上,他们所做到的就是现在任何人只要有500万美元,就可以从头开始构建自己的模型,这在以前是闻所未闻的,所以这是一项巨大的成就。

大家一定要去看看DeepSeekV3,这款模型哦,干杯!

DeepSeek-V3技术报告原文

地址:

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

报告核心要点:

这是一个强大的混合专家(MoE)语言模型,共有 671B 参数,每个token激活 37B 参数。

为了实现高效推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力(MLA)和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中已得到充分验证。

此外,DeepSeek-V3 率先采用了无辅助损失的负载均衡策略,并设定了multi-token预测训练目标,以提升性能。

在 14.8 万亿个多样且高质量的tokens上对 DeepSeek-V3 进行预训练,随后通过监督微调(SFT)与强化学习(RL),充分挖掘其能力。

综合评估表明,DeepSeek-V3 超越了其他开源模型,性能可与领先的闭源模型相媲美。

性能卓越的同时,DeepSeek-V3 的完整训练仅需 278.8 万 H800 GPU hour。

此外,训练过程极为稳定,在整个训练过程中,未出现任何不可恢复的损失峰值,也无需进行任何回滚操作。

三、一些产业界观点

(1)特定领域实现了很好的数据优化

1、DEEPSEEK V3 编码和数学效果很好,超过O1之前的标杆sonnet3.5(CLAUDE)其他也还可以,但不一定超过sonnet 3.5。离O1、O3纸面上看差距还是不小。

2、特定领域实现了很好的数据优化,实现了细分应用比较好的效果和训练性价比。目前看如果相对明确的技术路线参考,不做特别多探索性工作的话能用有性价比的方式达到很好的效果。

3、国内基础模型剩下的几大核心厂商对海外市面上发布的模型都有一定的跟随能力,可能无法预计的是尚未发布的模型。

4、从O3体现的超强能力(纸面仍然领先幅度较大)和训练(预训练、后训练规划10万卡集群)、推理(高阶一个复杂点任务几千美金);另外目前模型离高准确度通用应用还有较大距离,算力爆发逻辑没有影响。

(2)De­e­p­s­e­ek这个统计口径只计算了训练

-训练只有一次,推理是无数次。推理需求实质上远大于训练需求,尤其是用户基数大了。

- De­e­p­s­e­ek是站在巨人的肩膀上,使用大量高质量合成数据。

- De­e­p­s­e­ek这个统计口径只计算了训练,但数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。

- De­e­p­s­e­ek的模型的MoE每个专家都可以单独拿出来训练,本身相比于de­n­se架构就是省力一些的方案。

-人人都超越了GPT 4o,ll­a­ma 3天天被踩在脚底下,消费者和企业界实际使用用的最多的还是这两个模型。这些宣传的成绩未必可靠。

本文源自:智通财经APP

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
意识到对方在经济优渥和有爱的家庭长大!网友:一下子就沉默了

意识到对方在经济优渥和有爱的家庭长大!网友:一下子就沉默了

另子维爱读史
2025-12-21 22:09:06
1人遇难,又是“网红”徒步点!深圳一区域被封闭

1人遇难,又是“网红”徒步点!深圳一区域被封闭

环球网资讯
2026-01-15 14:55:15
36万亿美债压顶,中国拒不接盘!特朗普决定“弄死”大债主!

36万亿美债压顶,中国拒不接盘!特朗普决定“弄死”大债主!

毒sir财经
2025-10-12 20:07:17
AI的尽头是电力,变压器概念股活跃,电网设备ETF(159326)规模创新高

AI的尽头是电力,变压器概念股活跃,电网设备ETF(159326)规模创新高

证券之星
2026-01-15 14:09:09
同样打了37场,看看穆雷和哈登本赛季的数据对比,真是难分伯仲!

同样打了37场,看看穆雷和哈登本赛季的数据对比,真是难分伯仲!

田先生篮球
2026-01-15 15:56:54
远离造神陷阱,官媒揭开杀猪宴呆呆妹真实处境,令人担心的事发生

远离造神陷阱,官媒揭开杀猪宴呆呆妹真实处境,令人担心的事发生

法老不说教
2026-01-14 14:43:04
KK园区被炸后,缅北爆发“二次招聘潮”,7万美元抢一个电诈人才

KK园区被炸后,缅北爆发“二次招聘潮”,7万美元抢一个电诈人才

谛听骨语本尊
2026-01-15 12:44:30
特朗普下令:180天打破中国垄断,不然…

特朗普下令:180天打破中国垄断,不然…

观察者网
2026-01-15 15:23:11
大师赛世界第一6-2击败中国一哥,赵心童1-4决赛赛程艰难

大师赛世界第一6-2击败中国一哥,赵心童1-4决赛赛程艰难

吴朑爱游泳
2026-01-15 01:25:35
江西丰城杀猪宴翻车!想赚刨猪汤流量,先看你是否具备这些条件

江西丰城杀猪宴翻车!想赚刨猪汤流量,先看你是否具备这些条件

普览
2026-01-15 11:39:26
娶了朋友前妻是一种什么样的体验?

娶了朋友前妻是一种什么样的体验?

另子维爱读史
2026-01-13 20:04:40
方媛带俩女儿逛街太喜庆!一家人低调看画作,郭富城穿帆布鞋节俭

方媛带俩女儿逛街太喜庆!一家人低调看画作,郭富城穿帆布鞋节俭

蒂蒂茱家
2026-01-15 13:31:02
人类对闲鱼的开发不足1%,网友:浅薄了,闲鱼相当于唐诡里的鬼市

人类对闲鱼的开发不足1%,网友:浅薄了,闲鱼相当于唐诡里的鬼市

夜深爱杂谈
2026-01-13 21:58:51
卢伟指导一箭双雕力争守住联盟三甲,战广东避实就虚再次考验弗格

卢伟指导一箭双雕力争守住联盟三甲,战广东避实就虚再次考验弗格

陈錈爱体育
2026-01-15 16:13:29
姚振华是输不起的赌徒

姚振华是输不起的赌徒

好猫财经
2026-01-15 12:58:13
球星赛15日赛程直播:国乒5人出局,林诗栋下下签!蒯曼首战悬了

球星赛15日赛程直播:国乒5人出局,林诗栋下下签!蒯曼首战悬了

好乒乓
2026-01-15 12:29:42
1-3爆冷!樊振东遭302位小将羞辱,却逆袭打服德国媒体

1-3爆冷!樊振东遭302位小将羞辱,却逆袭打服德国媒体

卿子书
2026-01-14 18:45:32
最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

磊子讲史
2026-01-14 11:16:27
里奇-保罗:我不想詹姆斯靠施舍进全明星,若他数据不好就该去度假

里奇-保罗:我不想詹姆斯靠施舍进全明星,若他数据不好就该去度假

懂球帝
2026-01-15 14:02:07
5人滚蛋!4人稳进!1人悬了!男篮世预赛名单大洗牌,郭士强这次躲不开

5人滚蛋!4人稳进!1人悬了!男篮世预赛名单大洗牌,郭士强这次躲不开

舟望停云
2026-01-15 09:26:50
2026-01-15 17:24:49
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 545721关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

上海市中心3米高围挡倒下路人险中招:仅用双面胶固定

头条要闻

上海市中心3米高围挡倒下路人险中招:仅用双面胶固定

体育要闻

棋圣千古!聂卫平侠气豪情寄国足 一生情缘亦成憾

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

央行下调结构性货币政策工具利率0.25%

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

艺术
游戏
手机
房产
公开课

艺术要闻

历代书家集字春联大集合

十三年经典FPS回归,满足了我少年时的一切幻想

手机要闻

iPhone 17e配置曝光:采用60Hz灵动岛屏,搭载A19处理器与C1X基带

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版