网易首页 > 网易号 > 正文 申请入驻

DeepSeek技术:如何通过注意力机制提升AI智能?

0
分享至



11月27日,DeepSeek的DeepSeekMath-V2模型,在IMO2025测试中拿到了金牌水平,分数比人类历史最高分还高。

更有意思的是,这模型还是目前唯一开源开放权重的IMO金牌级模型。

能在数学推理这种"烧脑"领域超过人类顶尖水平,背后肯定不是拍脑袋搞出来的,而是攒了一整年的技术"大招"集中爆发。

今天咱们就来聊聊,这个让AI在数学竞赛里"封神"的模型,到底藏着哪些不为人知的技术小心思。



要搞懂DeepSeekMath-V2为啥这么强,得先看看它的"前辈们"都练了哪些"内功"。

今年2月,DeepSeek发过一篇关于注意力机制的论文,叫NativeSparseAttention(NSA)。

传统的注意力机制就像撒网捕鱼,不管有用没用的信息全兜住,序列越长计算量越夸张,简直是"吃力不讨好"。

NSA就聪明多了,搞了个"动态分层稀疏",简单说就是先粗筛一遍,再精挑细选,最后用滑动窗口盯着最近的信息。



你猜怎么着?在64k长度的序列上,解码速度直接快了11倍多,前向传播快9倍,反向传播快6倍。

关键是速度快了,效果还没降,反而略有提升。

袁境阳团队靠这个拿了ACL2025最佳论文,他们的目标更野,要把上下文长度扩展到100万。

光处理得快还不够,怎么把这些信息存下来也是个大问题。

这就轮到10月发布的OCR技术登场了,传统存长上下文就像往U盘里硬塞文件,塞多了要么卡要么丢。

DeepSeek的思路有点意思,把文本渲染成图像,用视觉encoder压缩。



实验结果挺惊喜,压缩10倍的时候,解码精度还能保持97%,就算压到20倍,也有60%左右。

MITTechnologyReview评价这技术"可能找到了改善AI记忆的新方法",确实没夸张。

更绝的是它模拟人类记忆衰减的设计,历史图像分辨率慢慢降低,就像咱们记东西,最近的事记得清,越老的事越模糊。

这种"聪明的忘记"比一股脑全记住实用多了,这思路比单纯堆硬件存数据要巧多了。

除了处理和存储上下文,DeepSeek在多模态能力上也没闲着。

今年1月底,他们发布了Janus-Pro多模态模型,正好赶上R1引发全球关注那周。

这模型厉害在哪儿?能同时看懂图像和生成图像,就像既能看画又能画画的全能选手。



传统多模态模型经常"精神分裂",理解图像要细节,生成图像要创意,俩需求打架。

Janus-Pro搞了个"解耦视觉编码",两条路各管一摊,共用一个Transformer主干,这下不打架了。

这技术不光解决了当下的问题,更重要的是验证了"一个大脑干多种活"的可行性,给未来通用智能体打了个好底子。

这些"内功"练好了,终于在数学推理这个"硬仗"上派上了用场,这就是DeepSeekMath-V2的故事。



现在主流数学推理模型有点走偏了,被训练得只想着答对题,不管推理过程对不对。

就像有些学生考试靠蒙,答案对了但思路全错,老师一追问就露馅。

用强化学习死磕最终答案正确率,结果模型写的推理过程可能漏洞比筛子还多。

这种模式对付有标准答案的题还行,遇到开放问题就抓瞎。

DeepSeekMath-V2换了个思路,搞了个"生成器-验证器"双模型架构。

你可以理解成,生成器负责写证明过程,就像学生做题,验证器负责当老师,批改这个证明对不对、严不严谨,然后把意见反馈给生成器。

这样一来,生成器不光要答对,还得写清楚"为什么对"。



不过这里有个难题,生成器写的证明有时候太绕,验证器看不懂,这就是"生成-验证差距"。

DeepSeek的办法是"动态扩展验证计算",遇到难验证的证明,就多花点计算资源仔细看,实在看不懂的,就自动标出来当成新训练数据,让验证器慢慢学。

就像老师遇到学生写的怪答案,先多看几遍,实在不懂就记下来当教学案例,下次就会了。

这种自我验证机制的价值可不小,首先,模型能自己发现推理问题并修正,不用老等着人类给标准答案。

以前模型学数学像照着答案抄作业,现在能自己检查作业了。



摆脱了对外部标准答案的依赖,这对解决开放问题太重要了,现实世界里很多问题根本没有标准答案,总不能一直等着人来教吧?这步棋走得比单纯提高正确率有远见多了。

这些技术拼到一起,你会发现DeepSeek不是在瞎搞。

NSA解决长上下文处理效率,OCR解决存储效率,俩技术凑一块,指向的是百万级甚至更长的上下文窗口,Janus-Pro的多模态能力是通用智能体的基础设施。

各项技术不是孤立的,而是一套有内在联系的组合拳。

未来的大模型会往哪儿走?在线强化学习肯定是个重要方向。

简单说就是模型能边用边学,实时跟环境互动、获取反馈、更新策略。



R1靠纯强化学习突破推理能力,R1-Zero证明了用固定习题就能练出强模型,这些都在说明"边做边学"比"一次性喂饱"更高效。

DeepSeek的各项技术其实都在为这个方向铺路,自我验证机制让模型能自己找错,动态扩展计算让模型能根据问题难度调整努力程度,多模态能力让模型能跟更复杂的环境互动。

现在的DeepSeekMath-V2已经迈出了第一步,未来要是把这些技术全整合好,再加上开源这个大优势,说不定真能让AI在通用智能的路上走得更稳。



毕竟,聪明的AI不光要会做题,更要学会怎么自己变得更聪明,这大概就是DeepSeek想告诉我们的事。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他曾将何超琼收入囊中,如今娶外国模特为妻,已是2个混血娃的爹

他曾将何超琼收入囊中,如今娶外国模特为妻,已是2个混血娃的爹

和平声浪
2026-01-08 14:51:16
纪实:杨佳袭警案,北京小伙对执法不满,手拿剔骨刀砍死6位民警

纪实:杨佳袭警案,北京小伙对执法不满,手拿剔骨刀砍死6位民警

谈史论天地
2026-01-08 19:40:03
美国军方大胆预测:突然曝光解放军武力收台时间,突然大幅度提前

美国军方大胆预测:突然曝光解放军武力收台时间,突然大幅度提前

乐天闲聊
2026-01-07 15:40:58
她曾任北京市委书记,上任3年后就被撤职,但是晚年依旧享受干部级待遇

她曾任北京市委书记,上任3年后就被撤职,但是晚年依旧享受干部级待遇

历史回忆室
2026-01-08 21:53:12
看了4集《老舅》,发现有些明星过气不是没有原因,根本就带不动

看了4集《老舅》,发现有些明星过气不是没有原因,根本就带不动

一娱三分地
2025-12-16 18:16:51
马德兴:U23男足还在爬坡中,整个亚洲都很胶着,0-0可以接受

马德兴:U23男足还在爬坡中,整个亚洲都很胶着,0-0可以接受

懂球帝
2026-01-09 12:12:14
终于来了!上海海港新外援曝光,锁定22岁非洲兽腰,即将正式加盟

终于来了!上海海港新外援曝光,锁定22岁非洲兽腰,即将正式加盟

国足风云
2026-01-09 09:05:26
全球在建的五大机场,大到离谱!

全球在建的五大机场,大到离谱!

航空笔记
2026-01-08 20:07:44
现场视频:太子集团陈志被押解回国!太子银行进入清算程序:停止新增业务,贷款人仍需按时还款

现场视频:太子集团陈志被押解回国!太子银行进入清算程序:停止新增业务,贷款人仍需按时还款

每日经济新闻
2026-01-08 17:57:11
瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

古书记史
2026-01-06 16:31:56
百亿美元比特币巨鳄落网,起底柬埔寨赌诈“教父”陈志

百亿美元比特币巨鳄落网,起底柬埔寨赌诈“教父”陈志

南方都市报
2026-01-08 20:07:09
死缓?有些孽畜,是不配活着的

死缓?有些孽畜,是不配活着的

近距离
2026-01-09 14:16:13
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
中国勒令特朗普撤回命令,对美警告很直白,别在委内瑞拉轻举妄动

中国勒令特朗普撤回命令,对美警告很直白,别在委内瑞拉轻举妄动

霁寒飘雪
2026-01-09 19:38:55
1983年乔冠华去世,新华社只发了一句话,胡乔木拍案而起:这也太不像话了

1983年乔冠华去世,新华社只发了一句话,胡乔木拍案而起:这也太不像话了

源溯历史
2025-12-31 20:03:15
我70岁才明白:孩子不尊重你,无需翻脸,用“乌鸦定律”就行

我70岁才明白:孩子不尊重你,无需翻脸,用“乌鸦定律”就行

兰姐说故事
2026-01-03 17:40:03
哭穷风波刚9天,何庆魁儿子曝闫学晶猛料被扒,77岁老父亲被牵连

哭穷风波刚9天,何庆魁儿子曝闫学晶猛料被扒,77岁老父亲被牵连

梦史
2026-01-08 14:10:27
1950年,师级首长在成都遭活剥?毛主席拍案而起:116万土匪,一个不留!

1950年,师级首长在成都遭活剥?毛主席拍案而起:116万土匪,一个不留!

寄史言志
2026-01-07 20:37:09
建国初裁军,西北9个军只留1个,军区召开会议都没人想来开

建国初裁军,西北9个军只留1个,军区召开会议都没人想来开

史之铭
2026-01-09 06:33:01
2026年春节,要暖到离谱?大年初一撞上七九,老辈人:60年头回见

2026年春节,要暖到离谱?大年初一撞上七九,老辈人:60年头回见

叮当当科技
2026-01-07 13:58:49
2026-01-09 20:40:49
吕甒极限手工
吕甒极限手工
在极限条件下爆发出大智慧
860文章数 68关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

女子"出轨"已婚985高校博士后 看到其聊天记录吓傻了

头条要闻

女子"出轨"已婚985高校博士后 看到其聊天记录吓傻了

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

家居
亲子
手机
房产
旅游

家居要闻

木色留白 演绎现代自由

亲子要闻

已召回71个批次的婴儿配方奶粉,速查家里的奶粉,教你正确选

手机要闻

不止汽车!小米17手机降价海报也全面取消小字

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

旅游要闻

云南沙溪古镇的风景不错,但更吸引我的,还是这里的纯色山鹪莺

无障碍浏览 进入关怀版