网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

DeepSeek技术：如何通过注意力机制提升AI智能？

2025-12-05 00:17:12　来源: 吕甒极限手工

四川举报

0

分享至

11月27日，DeepSeek的DeepSeekMath-V2模型，在IMO2025测试中拿到了金牌水平，分数比人类历史最高分还高。

更有意思的是，这模型还是目前唯一开源开放权重的IMO金牌级模型。

能在数学推理这种"烧脑"领域超过人类顶尖水平，背后肯定不是拍脑袋搞出来的，而是攒了一整年的技术"大招"集中爆发。

今天咱们就来聊聊，这个让AI在数学竞赛里"封神"的模型，到底藏着哪些不为人知的技术小心思。

要搞懂DeepSeekMath-V2为啥这么强，得先看看它的"前辈们"都练了哪些"内功"。

今年2月，DeepSeek发过一篇关于注意力机制的论文，叫NativeSparseAttention（NSA）。

传统的注意力机制就像撒网捕鱼，不管有用没用的信息全兜住，序列越长计算量越夸张，简直是"吃力不讨好"。

NSA就聪明多了，搞了个"动态分层稀疏"，简单说就是先粗筛一遍，再精挑细选，最后用滑动窗口盯着最近的信息。

你猜怎么着？在64k长度的序列上，解码速度直接快了11倍多，前向传播快9倍，反向传播快6倍。

关键是速度快了，效果还没降，反而略有提升。

袁境阳团队靠这个拿了ACL2025最佳论文，他们的目标更野，要把上下文长度扩展到100万。

光处理得快还不够，怎么把这些信息存下来也是个大问题。

这就轮到10月发布的OCR技术登场了，传统存长上下文就像往U盘里硬塞文件，塞多了要么卡要么丢。

DeepSeek的思路有点意思，把文本渲染成图像，用视觉encoder压缩。

实验结果挺惊喜，压缩10倍的时候，解码精度还能保持97%，就算压到20倍，也有60%左右。

MITTechnologyReview评价这技术"可能找到了改善AI记忆的新方法"，确实没夸张。

更绝的是它模拟人类记忆衰减的设计，历史图像分辨率慢慢降低，就像咱们记东西，最近的事记得清，越老的事越模糊。

这种"聪明的忘记"比一股脑全记住实用多了，这思路比单纯堆硬件存数据要巧多了。

除了处理和存储上下文，DeepSeek在多模态能力上也没闲着。

今年1月底，他们发布了Janus-Pro多模态模型，正好赶上R1引发全球关注那周。

这模型厉害在哪儿？能同时看懂图像和生成图像，就像既能看画又能画画的全能选手。

传统多模态模型经常"精神分裂"，理解图像要细节，生成图像要创意，俩需求打架。

Janus-Pro搞了个"解耦视觉编码"，两条路各管一摊，共用一个Transformer主干，这下不打架了。

这技术不光解决了当下的问题，更重要的是验证了"一个大脑干多种活"的可行性，给未来通用智能体打了个好底子。

这些"内功"练好了，终于在数学推理这个"硬仗"上派上了用场，这就是DeepSeekMath-V2的故事。

现在主流数学推理模型有点走偏了，被训练得只想着答对题，不管推理过程对不对。

就像有些学生考试靠蒙，答案对了但思路全错，老师一追问就露馅。

用强化学习死磕最终答案正确率，结果模型写的推理过程可能漏洞比筛子还多。

这种模式对付有标准答案的题还行，遇到开放问题就抓瞎。

DeepSeekMath-V2换了个思路，搞了个"生成器-验证器"双模型架构。

你可以理解成，生成器负责写证明过程，就像学生做题，验证器负责当老师，批改这个证明对不对、严不严谨，然后把意见反馈给生成器。

这样一来，生成器不光要答对，还得写清楚"为什么对"。

不过这里有个难题，生成器写的证明有时候太绕，验证器看不懂，这就是"生成-验证差距"。

DeepSeek的办法是"动态扩展验证计算"，遇到难验证的证明，就多花点计算资源仔细看，实在看不懂的，就自动标出来当成新训练数据，让验证器慢慢学。

就像老师遇到学生写的怪答案，先多看几遍，实在不懂就记下来当教学案例，下次就会了。

这种自我验证机制的价值可不小，首先，模型能自己发现推理问题并修正，不用老等着人类给标准答案。

以前模型学数学像照着答案抄作业，现在能自己检查作业了。

摆脱了对外部标准答案的依赖，这对解决开放问题太重要了，现实世界里很多问题根本没有标准答案，总不能一直等着人来教吧？这步棋走得比单纯提高正确率有远见多了。

这些技术拼到一起，你会发现DeepSeek不是在瞎搞。

NSA解决长上下文处理效率，OCR解决存储效率，俩技术凑一块，指向的是百万级甚至更长的上下文窗口，Janus-Pro的多模态能力是通用智能体的基础设施。

各项技术不是孤立的，而是一套有内在联系的组合拳。

未来的大模型会往哪儿走？在线强化学习肯定是个重要方向。

简单说就是模型能边用边学，实时跟环境互动、获取反馈、更新策略。

R1靠纯强化学习突破推理能力，R1-Zero证明了用固定习题就能练出强模型，这些都在说明"边做边学"比"一次性喂饱"更高效。

DeepSeek的各项技术其实都在为这个方向铺路，自我验证机制让模型能自己找错，动态扩展计算让模型能根据问题难度调整努力程度，多模态能力让模型能跟更复杂的环境互动。

现在的DeepSeekMath-V2已经迈出了第一步，未来要是把这些技术全整合好，再加上开源这个大优势，说不定真能让AI在通用智能的路上走得更稳。

毕竟，聪明的AI不光要会做题，更要学会怎么自己变得更聪明，这大概就是DeepSeek想告诉我们的事。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

黄鹤楼景区应修北门？建议来了

极目新闻 2026-01-06 10:23:04
819 跟贴 819
重庆市涪陵区政府原一级巡视员赵昌辉接受审查调查

界面新闻 2026-01-09 19:04:28
0 跟贴 0

何中伟任浙江省副省长

新京报政事儿 2026-01-09 16:36:21
3 跟贴 3

事发济南！游客趵突泉拍照，珍稀古币掉入泉池！“想跳下去捞它”，后续来了

环球网资讯 2026-01-09 13:36:15
11 跟贴 11
广汽埃安称将对“湘超”冠军队票选13人赠车！永州足协回应

南方都市报 2026-01-09 15:38:21
5 跟贴 5

内存价格创历史新高商家喜忧参半

证券时报 2026-01-09 06:23:02
70 跟贴 70

“放大版”和“缩小版”！四个月小女儿和爸爸长得超像犹如“复制粘贴”

北青网-北京青年报 2026-01-09 15:22:32
23 跟贴 23
“金属牛市”恐怕今年就会戛然而止，金银铜被重点列出！

中国能源网 2026-01-09 09:54:12
149 跟贴 149

全球用户大面积中招：鼠标突然就“坏了”！不少人按到“手抽筋”，重装卸载也不管用，罗技回应

每日经济新闻 2026-01-08 20:15:12
56 跟贴 56
热闻|英超争冠悬念再起！阿森纳0-0利物浦，布拉德利吊射中楣+伤退

齐鲁壹点 2026-01-09 07:00:13
87 跟贴 87
灯光暗、跑道裂、公厕脏！深圳一公园被市民吐槽，街道办回应

南方都市报 2026-01-09 14:34:08
57 跟贴 57
这回，国足让人满意了？

新民晚报 2026-01-09 10:23:18
171 跟贴 171
英伟达聘请谷歌云高管担任其首席营销官

财联社 2026-01-09 13:26:13
30 跟贴 30
独家|万达4亿美元债展期方案获通过

财联社 2026-01-09 18:09:09
28 跟贴 28
多平台公布涉“AI魔改”违规视频处置情况——今日辟谣（2026年1月9日）

今日辟谣 2026-01-09 18:52:11
3 跟贴 3
特朗普接受专访：“我不需要国际法”

澎湃新闻 2026-01-09 13:57:08
6 跟贴 6
丽江，出现百万退单

中国新闻周刊 2026-01-09 20:16:32
0 跟贴 0
两年“风噪”夜夜难眠多方联动终除“心病”

南方都市报 2026-01-09 20:16:26
0 跟贴 0
【遭起】南部男子损坏交通护栏被处罚

南部微生活 2026-01-09 20:14:45
0 跟贴 0

他曾将何超琼收入囊中，如今娶外国模特为妻，已是2个混血娃的爹

他曾将何超琼收入囊中，如今娶外国模特为妻，已是2个混血娃的爹

和平声浪

2026-01-08 14:51:16

纪实：杨佳袭警案，北京小伙对执法不满，手拿剔骨刀砍死6位民警

纪实：杨佳袭警案，北京小伙对执法不满，手拿剔骨刀砍死6位民警

谈史论天地

2026-01-08 19:40:03

美国军方大胆预测：突然曝光解放军武力收台时间，突然大幅度提前

美国军方大胆预测：突然曝光解放军武力收台时间，突然大幅度提前

乐天闲聊

2026-01-07 15:40:58

她曾任北京市委书记，上任3年后就被撤职，但是晚年依旧享受干部级待遇

她曾任北京市委书记，上任3年后就被撤职，但是晚年依旧享受干部级待遇

历史回忆室

2026-01-08 21:53:12

看了4集《老舅》，发现有些明星过气不是没有原因，根本就带不动

看了4集《老舅》，发现有些明星过气不是没有原因，根本就带不动

一娱三分地

2025-12-16 18:16:51

马德兴：U23男足还在爬坡中，整个亚洲都很胶着，0-0可以接受

马德兴：U23男足还在爬坡中，整个亚洲都很胶着，0-0可以接受

懂球帝

2026-01-09 12:12:14

终于来了！上海海港新外援曝光，锁定22岁非洲兽腰，即将正式加盟

终于来了！上海海港新外援曝光，锁定22岁非洲兽腰，即将正式加盟

国足风云

2026-01-09 09:05:26

全球在建的五大机场，大到离谱！

全球在建的五大机场，大到离谱！

航空笔记

2026-01-08 20:07:44

现场视频：太子集团陈志被押解回国！太子银行进入清算程序：停止新增业务，贷款人仍需按时还款

现场视频：太子集团陈志被押解回国！太子银行进入清算程序：停止新增业务，贷款人仍需按时还款

每日经济新闻

2026-01-08 17:57:11

瓦良格号送到中国后有多震撼？专家刮掉表面的锈迹：钢材品质极佳

瓦良格号送到中国后有多震撼？专家刮掉表面的锈迹：钢材品质极佳

古书记史

2026-01-06 16:31:56

百亿美元比特币巨鳄落网，起底柬埔寨赌诈“教父”陈志

百亿美元比特币巨鳄落网，起底柬埔寨赌诈“教父”陈志

南方都市报

2026-01-08 20:07:09

死缓？有些孽畜，是不配活着的

近距离

2026-01-09 14:16:13

45岁富哥“北京肖哥”去世，前一天还晒老婆，死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世，前一天还晒老婆，死因曝光仇人都惋惜

嫹笔牂牂

2025-12-31 07:07:52

中国勒令特朗普撤回命令，对美警告很直白，别在委内瑞拉轻举妄动

中国勒令特朗普撤回命令，对美警告很直白，别在委内瑞拉轻举妄动

霁寒飘雪

2026-01-09 19:38:55

1983年乔冠华去世，新华社只发了一句话，胡乔木拍案而起：这也太不像话了

1983年乔冠华去世，新华社只发了一句话，胡乔木拍案而起：这也太不像话了

源溯历史

2025-12-31 20:03:15

我70岁才明白：孩子不尊重你，无需翻脸，用“乌鸦定律”就行

我70岁才明白：孩子不尊重你，无需翻脸，用“乌鸦定律”就行

兰姐说故事

2026-01-03 17:40:03

哭穷风波刚9天，何庆魁儿子曝闫学晶猛料被扒，77岁老父亲被牵连

哭穷风波刚9天，何庆魁儿子曝闫学晶猛料被扒，77岁老父亲被牵连

梦史

2026-01-08 14:10:27

1950年，师级首长在成都遭活剥？毛主席拍案而起：116万土匪，一个不留！

1950年，师级首长在成都遭活剥？毛主席拍案而起：116万土匪，一个不留！

寄史言志

2026-01-07 20:37:09

建国初裁军，西北9个军只留1个，军区召开会议都没人想来开

建国初裁军，西北9个军只留1个，军区召开会议都没人想来开

史之铭

2026-01-09 06:33:01

2026年春节，要暖到离谱？大年初一撞上七九，老辈人：60年头回见

2026年春节，要暖到离谱？大年初一撞上七九，老辈人：60年头回见

叮当当科技

2026-01-07 13:58:49

吕甒极限手工

在极限条件下爆发出大智慧

860文章数 68关注度

往期回顾全部

科技要闻

市场偏爱MiniMax：开盘涨42%，市值超700亿

头条要闻

女子"出轨"已婚985高校博士后看到其聊天记录吓傻了

头条要闻

女子"出轨"已婚985高校博士后看到其聊天记录吓傻了

体育要闻

金元时代最后的外援，来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞接下来是加速还是起跳？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

亲子

手机

房产

旅游

家居要闻

木色留白演绎现代自由

亲子要闻

已召回71个批次的婴儿配方奶粉，速查家里的奶粉，教你正确选

手机要闻

不止汽车！小米17手机降价海报也全面取消小字

房产要闻

66万方！4755套！三亚巨量房源正疯狂砸出！

旅游要闻

云南沙溪古镇的风景不错，但更吸引我的，还是这里的纯色山鹪莺

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版