网易首页 > 网易号 > 正文 申请入驻

DeepSeek技术:如何通过注意力机制提升AI智能?

0
分享至



11月27日,DeepSeek的DeepSeekMath-V2模型,在IMO2025测试中拿到了金牌水平,分数比人类历史最高分还高。

更有意思的是,这模型还是目前唯一开源开放权重的IMO金牌级模型。

能在数学推理这种"烧脑"领域超过人类顶尖水平,背后肯定不是拍脑袋搞出来的,而是攒了一整年的技术"大招"集中爆发。

今天咱们就来聊聊,这个让AI在数学竞赛里"封神"的模型,到底藏着哪些不为人知的技术小心思。



要搞懂DeepSeekMath-V2为啥这么强,得先看看它的"前辈们"都练了哪些"内功"。

今年2月,DeepSeek发过一篇关于注意力机制的论文,叫NativeSparseAttention(NSA)。

传统的注意力机制就像撒网捕鱼,不管有用没用的信息全兜住,序列越长计算量越夸张,简直是"吃力不讨好"。

NSA就聪明多了,搞了个"动态分层稀疏",简单说就是先粗筛一遍,再精挑细选,最后用滑动窗口盯着最近的信息。



你猜怎么着?在64k长度的序列上,解码速度直接快了11倍多,前向传播快9倍,反向传播快6倍。

关键是速度快了,效果还没降,反而略有提升。

袁境阳团队靠这个拿了ACL2025最佳论文,他们的目标更野,要把上下文长度扩展到100万。

光处理得快还不够,怎么把这些信息存下来也是个大问题。

这就轮到10月发布的OCR技术登场了,传统存长上下文就像往U盘里硬塞文件,塞多了要么卡要么丢。

DeepSeek的思路有点意思,把文本渲染成图像,用视觉encoder压缩。



实验结果挺惊喜,压缩10倍的时候,解码精度还能保持97%,就算压到20倍,也有60%左右。

MITTechnologyReview评价这技术"可能找到了改善AI记忆的新方法",确实没夸张。

更绝的是它模拟人类记忆衰减的设计,历史图像分辨率慢慢降低,就像咱们记东西,最近的事记得清,越老的事越模糊。

这种"聪明的忘记"比一股脑全记住实用多了,这思路比单纯堆硬件存数据要巧多了。

除了处理和存储上下文,DeepSeek在多模态能力上也没闲着。

今年1月底,他们发布了Janus-Pro多模态模型,正好赶上R1引发全球关注那周。

这模型厉害在哪儿?能同时看懂图像和生成图像,就像既能看画又能画画的全能选手。



传统多模态模型经常"精神分裂",理解图像要细节,生成图像要创意,俩需求打架。

Janus-Pro搞了个"解耦视觉编码",两条路各管一摊,共用一个Transformer主干,这下不打架了。

这技术不光解决了当下的问题,更重要的是验证了"一个大脑干多种活"的可行性,给未来通用智能体打了个好底子。

这些"内功"练好了,终于在数学推理这个"硬仗"上派上了用场,这就是DeepSeekMath-V2的故事。



现在主流数学推理模型有点走偏了,被训练得只想着答对题,不管推理过程对不对。

就像有些学生考试靠蒙,答案对了但思路全错,老师一追问就露馅。

用强化学习死磕最终答案正确率,结果模型写的推理过程可能漏洞比筛子还多。

这种模式对付有标准答案的题还行,遇到开放问题就抓瞎。

DeepSeekMath-V2换了个思路,搞了个"生成器-验证器"双模型架构。

你可以理解成,生成器负责写证明过程,就像学生做题,验证器负责当老师,批改这个证明对不对、严不严谨,然后把意见反馈给生成器。

这样一来,生成器不光要答对,还得写清楚"为什么对"。



不过这里有个难题,生成器写的证明有时候太绕,验证器看不懂,这就是"生成-验证差距"。

DeepSeek的办法是"动态扩展验证计算",遇到难验证的证明,就多花点计算资源仔细看,实在看不懂的,就自动标出来当成新训练数据,让验证器慢慢学。

就像老师遇到学生写的怪答案,先多看几遍,实在不懂就记下来当教学案例,下次就会了。

这种自我验证机制的价值可不小,首先,模型能自己发现推理问题并修正,不用老等着人类给标准答案。

以前模型学数学像照着答案抄作业,现在能自己检查作业了。



摆脱了对外部标准答案的依赖,这对解决开放问题太重要了,现实世界里很多问题根本没有标准答案,总不能一直等着人来教吧?这步棋走得比单纯提高正确率有远见多了。

这些技术拼到一起,你会发现DeepSeek不是在瞎搞。

NSA解决长上下文处理效率,OCR解决存储效率,俩技术凑一块,指向的是百万级甚至更长的上下文窗口,Janus-Pro的多模态能力是通用智能体的基础设施。

各项技术不是孤立的,而是一套有内在联系的组合拳。

未来的大模型会往哪儿走?在线强化学习肯定是个重要方向。

简单说就是模型能边用边学,实时跟环境互动、获取反馈、更新策略。



R1靠纯强化学习突破推理能力,R1-Zero证明了用固定习题就能练出强模型,这些都在说明"边做边学"比"一次性喂饱"更高效。

DeepSeek的各项技术其实都在为这个方向铺路,自我验证机制让模型能自己找错,动态扩展计算让模型能根据问题难度调整努力程度,多模态能力让模型能跟更复杂的环境互动。

现在的DeepSeekMath-V2已经迈出了第一步,未来要是把这些技术全整合好,再加上开源这个大优势,说不定真能让AI在通用智能的路上走得更稳。



毕竟,聪明的AI不光要会做题,更要学会怎么自己变得更聪明,这大概就是DeepSeek想告诉我们的事。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑丽文正式聘请王金平,担任国民党重要职务,还澄清一件大事

郑丽文正式聘请王金平,担任国民党重要职务,还澄清一件大事

DS北风
2025-12-24 15:46:05
钉在耻辱柱上!国家文物局出手,这三个跳梁小丑,彻底凉凉

钉在耻辱柱上!国家文物局出手,这三个跳梁小丑,彻底凉凉

陈博世财经
2025-12-24 14:08:38
42岁苍井空,官宣复出!

42岁苍井空,官宣复出!

澳洲红领巾
2025-12-24 14:30:50
“抢劫杀害发小一家三口”案凶手获死刑 凶手父亲:把他埋到地下便不能作恶

“抢劫杀害发小一家三口”案凶手获死刑 凶手父亲:把他埋到地下便不能作恶

上游新闻
2025-12-23 21:58:08
向太太敢说了!向华强今年已经78了,但是她和向华强还有X生活!

向太太敢说了!向华强今年已经78了,但是她和向华强还有X生活!

小娱乐悠悠
2025-12-23 14:57:09
去日本航班取消,去柬埔寨机票还很好买

去日本航班取消,去柬埔寨机票还很好买

名人苟或
2025-12-23 06:04:32
广东女护士林楚欣,因淤青确诊癌症,年仅18岁,两个月共花费13万

广东女护士林楚欣,因淤青确诊癌症,年仅18岁,两个月共花费13万

温辞韫
2025-12-23 10:42:08
山东一男子没工作交不起房贷车贷,妻子崩溃大哭:我不想和你过了

山东一男子没工作交不起房贷车贷,妻子崩溃大哭:我不想和你过了

观察鉴娱
2025-12-24 09:34:25
乌总统:一定条件下可考虑在顿涅茨克设自由经济区

乌总统:一定条件下可考虑在顿涅茨克设自由经济区

界面新闻
2025-12-24 17:50:42
2005年必将载入人类史册的7大事件

2005年必将载入人类史册的7大事件

史政先锋
2025-12-24 15:13:06
中国180万桶原油遭殃,特朗普闯下大祸,解放军100枚导弹已就位?

中国180万桶原油遭殃,特朗普闯下大祸,解放军100枚导弹已就位?

千羽解读
2025-12-23 20:22:09
专家提醒:不要买!不要吃!里面含有硼砂,危害健康,别害了自己

专家提醒:不要买!不要吃!里面含有硼砂,危害健康,别害了自己

岐黄传人孙大夫
2025-12-24 09:50:56
家长沸腾!中小学或迎新改革,将于2026年2月1日起施行

家长沸腾!中小学或迎新改革,将于2026年2月1日起施行

老特有话说
2025-12-24 12:31:24
女子花1.8万挑战“独处100小时赢60万” 中途被无故判出局 法院判全额退还报名费

女子花1.8万挑战“独处100小时赢60万” 中途被无故判出局 法院判全额退还报名费

闪电新闻
2025-12-23 17:15:36
“亲家母死了跟我们有什么关系”婆婆说完不久后,她的报应就来了

“亲家母死了跟我们有什么关系”婆婆说完不久后,她的报应就来了

清水家庭故事
2025-12-23 15:33:50
方永飞公开批评雷军:“还要不要一点脸啊,样样世界第一”

方永飞公开批评雷军:“还要不要一点脸啊,样样世界第一”

大白聊IT
2025-12-22 10:03:54
还交易吗?记者:多队想低价打劫独行侠换浓眉,后者场均21+11

还交易吗?记者:多队想低价打劫独行侠换浓眉,后者场均21+11

懂球帝
2025-12-24 11:25:05
“断骨增高术”后的他们:难修复的长短腿、疼痛无力等后遗症,以及无尽的后悔

“断骨增高术”后的他们:难修复的长短腿、疼痛无力等后遗症,以及无尽的后悔

澎湃新闻
2025-12-23 20:22:29
“消失”的王小海,揭穿玖月奇迹的尴尬处境,印证了凤凰传奇的话

“消失”的王小海,揭穿玖月奇迹的尴尬处境,印证了凤凰传奇的话

丰谭笔录
2025-12-24 00:06:58
哪些事是外国人到中国后才知道的?网友:你来天朝!你就涨知识吧

哪些事是外国人到中国后才知道的?网友:你来天朝!你就涨知识吧

带你感受人间冷暖
2025-12-24 00:10:09
2025-12-24 18:12:49
吕甒极限手工
吕甒极限手工
在极限条件下爆发出大智慧
788文章数 67关注度
往期回顾 全部

科技要闻

智谱和MiniMax拿出了“血淋淋”的账本

头条要闻

韩国财阀千金在柬埔寨被捕 被指涉嫌参与性交易和贩毒

头条要闻

韩国财阀千金在柬埔寨被捕 被指涉嫌参与性交易和贩毒

体育要闻

26岁广西球王,在质疑声中成为本土得分王

娱乐要闻

曝阚清子女儿早产但没保住

财经要闻

重磅!北京市优化调整住房限购政策

汽车要闻

“运动版库里南”一月份亮相   或命名极氪9S

态度原创

时尚
亲子
教育
本地
家居

赫本黑色高领衫的4种搭配,太值得借鉴!

亲子要闻

纸巾+彩笔+筷子就能做的毛毛虫,低成本哄娃小游戏轻松get

教育要闻

家校共育大课堂 | 运动享健康,家校护成长

本地新闻

云游安徽|一川江水润安庆,一塔一戏一城史

家居要闻

法式大平层 智能家居添彩

无障碍浏览 进入关怀版