网易首页 > 网易号 > 正文 申请入驻

DeepSeek技术:如何通过注意力机制提升AI智能?

0
分享至



11月27日,DeepSeek的DeepSeekMath-V2模型,在IMO2025测试中拿到了金牌水平,分数比人类历史最高分还高。

更有意思的是,这模型还是目前唯一开源开放权重的IMO金牌级模型。

能在数学推理这种"烧脑"领域超过人类顶尖水平,背后肯定不是拍脑袋搞出来的,而是攒了一整年的技术"大招"集中爆发。

今天咱们就来聊聊,这个让AI在数学竞赛里"封神"的模型,到底藏着哪些不为人知的技术小心思。



要搞懂DeepSeekMath-V2为啥这么强,得先看看它的"前辈们"都练了哪些"内功"。

今年2月,DeepSeek发过一篇关于注意力机制的论文,叫NativeSparseAttention(NSA)。

传统的注意力机制就像撒网捕鱼,不管有用没用的信息全兜住,序列越长计算量越夸张,简直是"吃力不讨好"。

NSA就聪明多了,搞了个"动态分层稀疏",简单说就是先粗筛一遍,再精挑细选,最后用滑动窗口盯着最近的信息。



你猜怎么着?在64k长度的序列上,解码速度直接快了11倍多,前向传播快9倍,反向传播快6倍。

关键是速度快了,效果还没降,反而略有提升。

袁境阳团队靠这个拿了ACL2025最佳论文,他们的目标更野,要把上下文长度扩展到100万。

光处理得快还不够,怎么把这些信息存下来也是个大问题。

这就轮到10月发布的OCR技术登场了,传统存长上下文就像往U盘里硬塞文件,塞多了要么卡要么丢。

DeepSeek的思路有点意思,把文本渲染成图像,用视觉encoder压缩。



实验结果挺惊喜,压缩10倍的时候,解码精度还能保持97%,就算压到20倍,也有60%左右。

MITTechnologyReview评价这技术"可能找到了改善AI记忆的新方法",确实没夸张。

更绝的是它模拟人类记忆衰减的设计,历史图像分辨率慢慢降低,就像咱们记东西,最近的事记得清,越老的事越模糊。

这种"聪明的忘记"比一股脑全记住实用多了,这思路比单纯堆硬件存数据要巧多了。

除了处理和存储上下文,DeepSeek在多模态能力上也没闲着。

今年1月底,他们发布了Janus-Pro多模态模型,正好赶上R1引发全球关注那周。

这模型厉害在哪儿?能同时看懂图像和生成图像,就像既能看画又能画画的全能选手。



传统多模态模型经常"精神分裂",理解图像要细节,生成图像要创意,俩需求打架。

Janus-Pro搞了个"解耦视觉编码",两条路各管一摊,共用一个Transformer主干,这下不打架了。

这技术不光解决了当下的问题,更重要的是验证了"一个大脑干多种活"的可行性,给未来通用智能体打了个好底子。

这些"内功"练好了,终于在数学推理这个"硬仗"上派上了用场,这就是DeepSeekMath-V2的故事。



现在主流数学推理模型有点走偏了,被训练得只想着答对题,不管推理过程对不对。

就像有些学生考试靠蒙,答案对了但思路全错,老师一追问就露馅。

用强化学习死磕最终答案正确率,结果模型写的推理过程可能漏洞比筛子还多。

这种模式对付有标准答案的题还行,遇到开放问题就抓瞎。

DeepSeekMath-V2换了个思路,搞了个"生成器-验证器"双模型架构。

你可以理解成,生成器负责写证明过程,就像学生做题,验证器负责当老师,批改这个证明对不对、严不严谨,然后把意见反馈给生成器。

这样一来,生成器不光要答对,还得写清楚"为什么对"。



不过这里有个难题,生成器写的证明有时候太绕,验证器看不懂,这就是"生成-验证差距"。

DeepSeek的办法是"动态扩展验证计算",遇到难验证的证明,就多花点计算资源仔细看,实在看不懂的,就自动标出来当成新训练数据,让验证器慢慢学。

就像老师遇到学生写的怪答案,先多看几遍,实在不懂就记下来当教学案例,下次就会了。

这种自我验证机制的价值可不小,首先,模型能自己发现推理问题并修正,不用老等着人类给标准答案。

以前模型学数学像照着答案抄作业,现在能自己检查作业了。



摆脱了对外部标准答案的依赖,这对解决开放问题太重要了,现实世界里很多问题根本没有标准答案,总不能一直等着人来教吧?这步棋走得比单纯提高正确率有远见多了。

这些技术拼到一起,你会发现DeepSeek不是在瞎搞。

NSA解决长上下文处理效率,OCR解决存储效率,俩技术凑一块,指向的是百万级甚至更长的上下文窗口,Janus-Pro的多模态能力是通用智能体的基础设施。

各项技术不是孤立的,而是一套有内在联系的组合拳。

未来的大模型会往哪儿走?在线强化学习肯定是个重要方向。

简单说就是模型能边用边学,实时跟环境互动、获取反馈、更新策略。



R1靠纯强化学习突破推理能力,R1-Zero证明了用固定习题就能练出强模型,这些都在说明"边做边学"比"一次性喂饱"更高效。

DeepSeek的各项技术其实都在为这个方向铺路,自我验证机制让模型能自己找错,动态扩展计算让模型能根据问题难度调整努力程度,多模态能力让模型能跟更复杂的环境互动。

现在的DeepSeekMath-V2已经迈出了第一步,未来要是把这些技术全整合好,再加上开源这个大优势,说不定真能让AI在通用智能的路上走得更稳。



毕竟,聪明的AI不光要会做题,更要学会怎么自己变得更聪明,这大概就是DeepSeek想告诉我们的事。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
海信发布136英寸巨型MicroLED电视:2488万颗LED灯 亮度可达10000尼特

海信发布136英寸巨型MicroLED电视:2488万颗LED灯 亮度可达10000尼特

快科技
2026-01-06 10:10:07
美国斩杀线,河北取暖线

美国斩杀线,河北取暖线

罗恩财经
2026-01-08 12:38:40
最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

林雁飞
2026-01-04 19:29:51
Kpler:“索菲亚”号油轮载有200万桶自委内瑞拉港口装载的原油

Kpler:“索菲亚”号油轮载有200万桶自委内瑞拉港口装载的原油

新浪财经
2026-01-08 00:29:33
74岁王石最新状态!独自乘公务舱,头发秃顶状态疲惫,看起来落魄

74岁王石最新状态!独自乘公务舱,头发秃顶状态疲惫,看起来落魄

林子说事
2026-01-08 09:53:34
身材火辣,眼神迷人,拥有K级别身材的短发女神—桃果明里

身材火辣,眼神迷人,拥有K级别身材的短发女神—桃果明里

吃瓜党二号头目
2026-01-08 10:11:33
太行山采药人发现1943年跳崖八路军遗骸,腰带里缝着党员证

太行山采药人发现1943年跳崖八路军遗骸,腰带里缝着党员证

鹤羽说个事
2026-01-08 11:02:25
本轮牛市会涨得你目瞪口呆?

本轮牛市会涨得你目瞪口呆?

睿知投资
2026-01-08 12:28:07
迟到的父爱也是爱,成龙向女儿抛橄榄枝,吴卓林回应已回香港创业

迟到的父爱也是爱,成龙向女儿抛橄榄枝,吴卓林回应已回香港创业

青史楼兰
2026-01-07 09:35:21
哈工大发现:喜欢睡午觉的人,寿命比不睡午觉的人长几年不止?

哈工大发现:喜欢睡午觉的人,寿命比不睡午觉的人长几年不止?

健康之光
2026-01-05 14:22:46
湖人惨败马刺!东契奇砍38分,艾顿+众配角迷失,没詹姆斯真不行

湖人惨败马刺!东契奇砍38分,艾顿+众配角迷失,没詹姆斯真不行

篮球资讯达人
2026-01-08 13:04:26
比田朴珺更潇洒!王石邀请众人到家打牌聚餐,3位美女暗送秋波

比田朴珺更潇洒!王石邀请众人到家打牌聚餐,3位美女暗送秋波

揽星河的笔记
2026-01-07 19:21:08
马杜罗迎来帮手,六国挺身而出,四国对美国发出通牒,特朗普急了

马杜罗迎来帮手,六国挺身而出,四国对美国发出通牒,特朗普急了

来科点谱
2026-01-06 09:00:36
1949 年,朱可夫元帅品尝可口可乐时提议:可否消除其棕褐色泽,让它像伏特加一样?

1949 年,朱可夫元帅品尝可口可乐时提议:可否消除其棕褐色泽,让它像伏特加一样?

桃烟读史
2025-12-14 18:55:18
人口学家梁建章警告:如果不尽早干预,40年后印度人口将是中国3倍

人口学家梁建章警告:如果不尽早干预,40年后印度人口将是中国3倍

丰谭笔录
2026-01-08 00:08:41
天然气对华毁约,加入欧美稀土战略,哈萨克斯坦这路谁教他走的?

天然气对华毁约,加入欧美稀土战略,哈萨克斯坦这路谁教他走的?

策略述
2025-12-27 17:20:34
《爱情公寓》陈美嘉饰演者被曝怀孕!本人亲自出面回应,肚子确实变大了,但没情况

《爱情公寓》陈美嘉饰演者被曝怀孕!本人亲自出面回应,肚子确实变大了,但没情况

不八卦掌门人
2026-01-08 11:10:08
教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

趣文说娱
2026-01-05 17:49:32
日本梅毒感染人数持续处于高位,年轻人聚众晒梅毒,为何会这样?

日本梅毒感染人数持续处于高位,年轻人聚众晒梅毒,为何会这样?

之乎者也小鱼儿
2026-01-07 13:51:26
直击猎德村分红!村民排队打簿,羡慕有人拿13万...

直击猎德村分红!村民排队打簿,羡慕有人拿13万...

广州楼市发布
2026-01-08 11:57:40
2026-01-08 18:07:00
吕甒极限手工
吕甒极限手工
在极限条件下爆发出大智慧
855文章数 68关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

9岁女孩课堂写试卷昏倒去世 家属不忍尸检称"她怕疼"

头条要闻

9岁女孩课堂写试卷昏倒去世 家属不忍尸检称"她怕疼"

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

健康
数码
亲子
艺术
公开课

这些新疗法,让化疗不再那么痛苦

数码要闻

CES 2026 钛钽大秀肌肉!曲面屏水冷与全景机箱惊艳全场

亲子要闻

投资几十万让娃3岁学英语,值不值?

艺术要闻

颐和园金光穿洞

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版