网易首页 > 网易号 > 正文 申请入驻

DeepSeek发布最新技术论文

0
分享至

DeepSeek突传大动作。

2月18日,DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。DeepSeek称,NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制,实现超高速长上下文训练与推理。通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。

与此同时,人工智能初创公司月之暗面也有大动作。2月18日,其宣布推出一款新模型Kimi Latest,它将对标Kimi智能助手当前使用的模型,随智能助手产品更新而同步升级(模型名称始终不变),用户现已可在Kimi开放平台体验。

市场层面,2月18日,港股DeepSeek概念股延续强势,截至收盘,出门问问大涨超16%,创梦天地大涨超12%,美图公司大涨超10%,快手涨超9%。高盛最新研报指出,DeepSeek-R1及中国本土AI模型的突破性进展,正在重塑科技产业叙事逻辑。

DeepSeek发布

2月18日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制,用于超快速的长上下文训练和推理。

DeepSeek表示,通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。

值得一提的是,在这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人兼CEO梁文锋也作为共创在列。

根据最新发布的论文,NSA的核心亮点可以概括为以下两点:

1、动态分层稀疏策略:NSA采用了一种动态分层的稀疏策略,结合了粗粒度的Token压缩和细粒度的Token选择。这种策略既提升了效率,也保留了模型对全局长上下文的感知能力和局部精确性。

2、两大关键创新:算术强度平衡的算法设计与硬件优化,NSA通过精巧的算法设计,并针对现代硬件进行了实现优化,显著提升了计算速度;可训练的稀疏注意力,NSA支持端到端训练,减少了预训练计算成本,同时保持模型性能。

实验结果显示,NSA 在多个基准测试中表现出色,甚至超越了全注意力基线模型。

在8卡A100计算集群上,NSA的前向传播和反向传播速度分别比全注意力快9倍和6倍,由于减少了内存访问量,NSA在长序列解码时相较于全注意力模型速度显著提升。

在处理64k长度的序列时,NSA在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升,最高可达11.6 倍。

实验表明,NSA不仅在通用任务和长上下文任务中表现出色,还在链式推理等复杂任务中展现了强大的潜力。

尽管NSA取得了显著的成果,但DeepSeek研究团队也指出了一些可能的改进方向。未来,研究团队计划进一步探索稀疏注意力的理论边界,并将其应用于更多实际场景,如多模态理解和实时生成任务。

月之暗面大动作

与此同时,人工智能初创公司月之暗面也有大动作。2月18日,其宣布推出一款新模型Kimi Latest,它将对标Kimi智能助手当前使用的模型,随智能助手产品更新而同步升级(模型名称始终不变),旨在为开发者和企业用户提供更强大、更稳定的AI生成能力。

据介绍,Kimi Latest模型将始终对标Kimi智能助手当前使用的最新模型,并随产品更新同步升级。这一特性确保了开放平台用户既能体验到最新模型带来的卓越效果,包括尚未稳定的试验性特性,又能保持原有模型的稳定性。Kimi Latest模型具备128k的上下文长度,并能根据上下文长度自动选择8k、32k或128k模型作为计费标准。此外,该模型支持图片理解、自动上下文缓存等功能,缓存命中的Tokens费用仅为1/M Tokens,暂不支持手动上下文缓存。

目前,Kimi Latest仅支持调用Kimi普通版模型,Kimi k1.5长思考模型暂不支持API调用。如有研究和测评需求,需要填写Kimi k1.5申请表单提交测试申请。

Kimi是DeepSeek崛起之前,国内话题度最高的来自创业公司的AI产品。

据公开数据统计,截至目前,月之暗面共完成4轮融资,融资规模超过110亿元。其中,在阿里参与超10亿美元规模的A+轮融资中,有媒体报道称有近2亿美元以算力券形式折算。这意味着,月之暗面的现金规模接近100亿元。

另据界面新闻,月之暗面近期决定大幅收缩产品投放预算,包括暂停多个安卓渠道的投放,以及第三方广告平台的合作。

在DeepSeek席卷全球AI产业链后,这是大模型“六小虎”之中第一家在投放策略上有明显反应的公司。据了解,月之暗面内部对此次调整解释称,公司近期受到“外部因素和内部战略调整影响”。

界面新闻援引知情人士的消息称,DeepSeek的爆火对月之暗面内部而言是一番不小的刺激。团队复盘后认为还是要坚持基础模型SOTA(State-of-the-art,当前最佳)。接下来,团队可能会重新训练基础模型,同时抓紧应用层的机会,内部选中的一个产品方向是DeepResearch,这是OpenAI在2月发布的一款面向深度研究领域的智能体产品。

高盛最新发声

高盛最新研报指出,DeepSeek-R1及中国本土AI模型的突破性进展,正在重塑科技产业叙事逻辑。

该机构测算,AI技术普及有望在未来十年内每年为中国企业提升EPS(每股收益)约2.5%,并通过改善增长预期推动中国股市公允价值提升15%—20%,预计将吸引超2000亿美元(约合人民币1.44万亿元)的跨境资本流入。

2月18日,港股DeepSeek概念股延续强势,截至收盘,出门问问大涨16.67%,创梦天地大涨12.35%,美图公司大涨超10%,快手涨超9%。

消息方面,包括贝莱德、路博迈、施罗德等多家外资机构均认为,随着DeepSeek的技术突破,半导体行业将经历较大的波动,但长期来看,AI计算能力的需求仍会持续增长,推动芯片和硬件市场的发展。

此外,机构也认为,本轮技术突破有望带动更大范围的投资潮,看好AI大发展对新能源、消费电子、智能驾驶和医疗健康等领域的辐射效应。

中信证券在最新研报中指出,“尽管近期中国科网公司已有非常显著的涨幅,拉长历史周期看,我们仍处于AI时代的早期,以及中国科技资产重估的开端。”

中信证券表示,长期看好中国科技乃至更大范围资产的重估和成长空间,尤其是在2018年中美博弈导致估值显著承压之后。未来,每一次大的技术突破和应用落地,都有机会带来系统性的估值提升。

光大证券在研报中表示,目前AI应用正在加速扩散,相关企业的技术和产品不断推陈出新,为资本市场提供了丰富的投资机会。只要产业趋势延续,即便短期的“拥挤”可能会带来分歧与调整,但大概率也会有更多的资金去承接,进而打开“拥挤度”进一步向上的空间。

来源:券商中国

责编:万健祎

校对:王蔚

版权声明

" Type="normal"@@-->

证券时报各平台所有原创内容,未经书面授权,任何单位及个人不得转载。我社保留追究相关行为主体法律责任的权利。

转载与合作可联系证券时报小助理,微信ID:SecuritiesTimes" Type="normal"@@-->

END

" Type="normal"@@-->

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
争议!国际足联重大错误:U17世界杯抽签分档公布 竟然漏掉中国队

争议!国际足联重大错误:U17世界杯抽签分档公布 竟然漏掉中国队

念洲
2026-05-21 08:02:07
对于明天周五A股,我只说三句话:第一,4077点或许只是个半山腰!

对于明天周五A股,我只说三句话:第一,4077点或许只是个半山腰!

趋势清风侠
2026-05-21 18:10:07
港股科技股集体下挫,一AI算力股断崖跌超83%

港股科技股集体下挫,一AI算力股断崖跌超83%

21世纪经济报道
2026-05-21 17:01:03
童年女神宣布怀孕了!

童年女神宣布怀孕了!

奋斗在韩国
2026-05-21 10:14:01
知名网红韩景枫官宣全家搬离北京!刚购千万别墅,已卖掉多辆豪车

知名网红韩景枫官宣全家搬离北京!刚购千万别墅,已卖掉多辆豪车

裕丰娱间说
2026-05-21 08:43:39
张嘉益的关系户们,谁演技最好?演技排名,姬他第七,秦海璐第二

张嘉益的关系户们,谁演技最好?演技排名,姬他第七,秦海璐第二

DJ雅清
2026-05-20 13:25:03
1934年长征开始,被留苏区的领导大多是毛泽东的人,他们结局如何

1934年长征开始,被留苏区的领导大多是毛泽东的人,他们结局如何

小莜读史
2026-05-21 15:57:23
北京医院搬迁潮:大量三甲医院集体搬到五环外,评论区已经吵翻

北京医院搬迁潮:大量三甲医院集体搬到五环外,评论区已经吵翻

谭谈社会
2026-05-21 06:47:13
夫妻俩用家中做菜摆摊被发现后拒不承认,燃气公司停气后开始维权

夫妻俩用家中做菜摆摊被发现后拒不承认,燃气公司停气后开始维权

映射生活的身影
2026-05-20 20:25:57
上节目三连丢脸,方媛连夜跑路,如今的她真被郭富城说中了

上节目三连丢脸,方媛连夜跑路,如今的她真被郭富城说中了

日落于西
2026-05-21 15:33:02
中国女人,正在流行穿这种内裤!

中国女人,正在流行穿这种内裤!

超级数学建模
2026-05-20 22:53:02
马刺遭遇伤病重创,哈珀伤情评估出炉,后场用人岌岌可危

马刺遭遇伤病重创,哈珀伤情评估出炉,后场用人岌岌可危

夜白侃球
2026-05-21 22:01:54
歼-15或将退役:解析全球最短命舰载机短板

歼-15或将退役:解析全球最短命舰载机短板

史潎的生活日记
2026-05-21 10:34:51
大厨分享3种孩子爱吃的鸡翅做法,解馋又下饭,好吃到舔手指

大厨分享3种孩子爱吃的鸡翅做法,解馋又下饭,好吃到舔手指

江江食研社
2026-05-20 21:04:39
被年轻人的“冰箱贴”惊到了!果然,一代人有一代人的“破烂”

被年轻人的“冰箱贴”惊到了!果然,一代人有一代人的“破烂”

美家指南
2026-05-21 15:48:54
侃爷妻子适应不了优雅风,又换回原本的穿衣风格,“吓到”路人了

侃爷妻子适应不了优雅风,又换回原本的穿衣风格,“吓到”路人了

小书生吃瓜
2026-05-21 16:49:36
感觉大家都好会过日子啊,确实能省下来不少钱!网友:成年人的心酸

感觉大家都好会过日子啊,确实能省下来不少钱!网友:成年人的心酸

据说说娱乐
2026-05-21 15:05:43
知情人士:内塔尼亚胡气急败坏

知情人士:内塔尼亚胡气急败坏

极目新闻
2026-05-21 11:38:10
于娜节目公开胖到230斤的原因,和妈妈同住,不吃主食一顿吃5个菜

于娜节目公开胖到230斤的原因,和妈妈同住,不吃主食一顿吃5个菜

一盅情怀
2026-05-21 09:28:42
56票:50票,赖清德弹劾案结果公布,中国大陆对赖清德的称呼变了

56票:50票,赖清德弹劾案结果公布,中国大陆对赖清德的称呼变了

墨兰史书
2026-05-21 01:35:03
2026-05-21 23:27:00
证券时报 incentive-icons
证券时报
运营主体:深圳证券时报社有限公司
914716文章数 239106关注度
往期回顾 全部

科技要闻

小米YU7 GT正式发布:售价38.99万元

头条要闻

男子网购719元女士睡衣做520礼物 调包成男士睡衣退货

头条要闻

男子网购719元女士睡衣做520礼物 调包成男士睡衣退货

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

反转!金秀贤与金赛纶未成年时交往不实

财经要闻

潮水退去,裸泳的一定不止五粮液

汽车要闻

后驱+闪充+激光雷达 第三代元PLUS上市售11.99万元起

态度原创

本地
亲子
艺术
手机
公开课

本地新闻

用云锦的方式,打开江苏南京

亲子要闻

5岁小女孩来月经,竟是因为这件事情!

艺术要闻

崔雪冬 2026年油画新作

手机要闻

4299元起!小米17 Max 2亿徕卡太炸裂,穿戴新品压轴登场

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版