想象一下,你和朋友站在菜市场里,你指着远处说"张老太太的菜最新鲜"。朋友一脸懵:哪个是张老太太?但如果你直接用手指过去,"就是那个",问题立刻解决。
AI看图时,也卡在这个尴尬处境——它能"看见",却"指不清"。DeepSeek五一前扔出的这份技术报告,核心就是给AI造了根赛博手指。
![]()
感知鸿沟 vs 引用鸿沟:两个完全不同的战场
过去一年,GPT、Claude、Gemini都在卷同一件事:让模型看得更清楚。
高分辨率裁剪、动态分块、多尺度处理……各家拼命往模型眼里塞更多像素。OpenAI的o3和o4-mini甚至能让模型在推理过程中裁剪、放大、旋转图片,把图像操作直接嵌入思维链。
这个方向有个默认假设:只要看得够细,推理自然变强。
DeepSeek在报告里泼了盆冷水。他们指出,就算模型视力拉满,复杂空间推理照样崩。
照片里十几只狗,你说"左边那只"——哪只?让模型数狗的数量,它数着数着就忘了哪些数过、哪些没数。迷宫导航更惨,纯语言根本描述不了不规则路径的拓扑关系。
DeepSeek把这叫"引用鸿沟"(Reference Gap):模型能感知图像,却无法在连续推理中稳定指向同一个视觉对象。
过去一年行业全力攻克的是"感知鸿沟"(Perception Gap)——图像模糊、分辨率低导致看不清。但DeepSeek发现,感知问题解决了,引用问题依然致命。
语言在空间定位上天生残疾。它擅长抽象概念和因果关系,面对连续视觉空间时,"左边""上面""这条线"全是模糊表达。一旦画面复杂,指代立刻漂移,推理链条断裂。
视觉基元:把坐标变成思维的最小单位
DeepSeek的解法很直接:既然语言指代不靠谱,那就让模型直接"指"。
他们提出"视觉基元"(Visual Primitives)概念,把边界框(bounding boxes)和点(points)这两种计算机视觉最基础的空间标记,提升为"思维的最小单位"。
这不是简单的图像标注。以前的多模态模型也能画框,但只是最后给你看个结果,证明"我找到了"——像考试只交答案不写过程。
也有研究让AI思考时画框,但目的是"看得更准",框框只是辅助工具,像草稿纸帮你算清楚,不是解题思路本身。
DeepSeek把空间标记直接嵌入推理过程,让它成为思维的有机组成部分。
模型思考时,不只是用语言描述"我看到了一只狗",而是同时输出:"我看到了一只狗,它在这里:[[x1,y1,x2,y2]]"。
这个机制叫"边推理边指向"(point while it reasons)。每一步思考都锚定在图像的具体坐标上,每个视觉对象都有明确的空间锚点。
技术报告里的迷宫例子很直观:模型从起点出发,探索、回溯、再尝试,输出一串完整坐标路径,每个坐标对应迷宫里走过的一个点。
推理过程变得可追踪、可验证。模型不会"迷路",不会搞不清自己在说什么、指什么。
OpenAI的"工作台" vs DeepSeek的"坐标链"
两条技术路线形成了有趣的对照。
OpenAI的"thinking with images"强调通用能力。模型拥有一个强大的"视觉工作台",可以裁剪、放大、旋转、生成图像,视觉、代码、搜索、文件、工具调用一起协作。
视觉推理发生在内部,用户只能看到最终答案和必要解释,中间过程是黑箱。
DeepSeek更"符号化"。坐标直接进入思维链,模型在推理文本里显式写出边界框和点的坐标,把视觉对象变成可复用的锚点。
这种透明化有个直接好处:更容易训练、检查、打分。
迷宫、路径追踪这类任务中,可以对路径合法性、轨迹覆盖度给出更细的反馈。模型不只是学会输出正确答案,更是学会用视觉基元进行推理的方法。
Token效率:被忽略的杀手锏
报告里有个极易被忽略的细节:DeepSeek处理图像用的token数量,远低于其他前沿模型。
800×800分辨率图像的对比数据:
Gemini-3-Flash约1100个,Claude-Sonnet-4.6约870个,GPT-5.4约740个,Qwen3-VL约660个,DeepSeek约361个。
KV缓存里,DeepSeek只保留约90个条目。
token数量是Gemini的三分之一,KV缓存条目是十分之一左右。
这靠的是一个叫"压缩稀疏注意力"(Compressed Sparse Attention)的机制。具体技术细节报告没展开,但效率差距是实打实的。
在多模态模型普遍受限于上下文长度和推理成本的当下,这种效率优势意味着能处理更大图像、更长视频、更复杂的视觉推理链条。
为什么这件事值得盯着
DeepSeek这份报告的价值,不在于又刷了什么榜单,而在于它重新定义了多模态模型的核心挑战。
行业过去一年默认"看得清=推得准",DeepSeek证明这是两个独立问题。感知鸿沟和引用鸿沟需要不同的解法,而后者被系统性忽视了。
给AI一根赛博手指,表面是技术路线选择,深层是对"推理"本身的理解差异。
OpenAI相信通用能力会自然涌现,视觉工作台越强大,复杂任务越能搞定。DeepSeek则认为,某些基础能力需要显式建模,坐标锚定不是优化手段,而是推理的必要结构。
这种分歧会持续发酵。如果DeepSeek的路线被验证,意味着多模态模型需要更多"符号化"设计,而非纯粹端到端 scaling。训练数据、评估基准、甚至产品形态都会跟着变。
更现实的层面,token效率差距直接影响落地成本。视觉推理从实验室走向生产环境,每省一个token都是真金白银。
这份报告发布在五一假期前一天,时机选得很DeepSeek——不追热点,只抛问题。而这个问题,可能会让下半年的多模态竞赛换条跑道。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.