网易首页 > 网易号 > 正文 申请入驻

DeepSeek多模态报告:让AI学会"用手指"

0
分享至

一位工程师正在GitHub上提交代码,他输入的不是常规优化,而是一套让AI"看见即思考"的新语法。4月30日,DeepSeek把这套方法论完整公开——不是炫技,是对整个多模态赛道的一次纠偏。

一、现有方案在回避真问题


多模态大模型这几年卷得很凶,但DeepSeek团队翻完文献发现一个尴尬事实:大家的链式思维(一种分步推理方法)基本还在玩文字游戏。

主流做法是什么?堆高分辨率、切图、增强感知——说白了,让AI"看得更清"。但报告直戳痛点:这只是在填"感知鸿沟",更大的坑是"参照鸿沟"。

什么意思?自然语言天生模糊。你说"左边那个",AI知道是哪吗?涉及复杂空间布局时,语言描述的弹性直接导致推理链条崩断。这不是看不清,是指不明。

二、"视觉原语"是什么

DeepSeek的解法很工程:把点、边界框这些空间标记,从"输入素材"升格为"思维单元"。

框架全称"基于视觉原语的思考"。核心操作是让视觉标记直接嵌入推理链路,让模型具备"指代"能力——抽象思考能锚定到具体物理坐标。空间关系从此可精确推演,不再靠语言打马虎眼。

报告披露,该架构视觉标记效率极高。模型体量紧凑、图像标记预算显著更低,却在计数和空间推理基准上追平GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash等头部模型。

这对System-2类多模态智能(慢思考、深度推理型系统)的轻量化部署是个明确信号。

三、产品端已落地

技术报告发布前,DeepSeek的"识图模式"已悄然上线。与"快速模式""专家模式"并列,不是OCR文字识别那套,是完整的多模态理解能力。

从发布节奏看,论文与产品同步——不是实验室成果占位,是验证过的工程方案。

四、为什么是"原语"这个词

计算机科学里,原语指不可再分的基础操作。DeepSeek借用这个概念,暗示空间标记应成为推理的"原子单位",而非后期拼接的辅助信息。

这触及一个深层设计选择:多模态融合,是该让视觉适应语言(当前主流),还是让两者在更底层平等对话?

报告的选择是后者。代价是重构推理框架,收益是空间任务的确定性。

五、对从业者的实际影响

如果你在做视觉问答、机器人导航、AR空间交互——任何需要"精准指位"的场景——这套框架提供了可复用的设计范式。

关键 takeaway:标记效率>模型规模。小预算跑出大模型效果,这对端侧部署和成本控制是实打实的利好。

但报告也留下未竟之题:视觉原语的边界在哪?颜色、纹理、动态关系能否同样"原语化"?DeepSeek没给答案。

多模态赛道正在从"拼感知"转向"拼推理结构"。当所有人都在堆算力,有人选择重新设计思维的语法——这是取巧,还是更本质的解题思路?你的业务场景,真的需要AI"看得清",还是"指得准"?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
打仗大家也要正常上班

打仗大家也要正常上班

周显香港
2026-04-30 09:49:59
绿凯抢七晋级概率72% ?大帝抢七触发不胜魔咒 官方毒奶或成X因素

绿凯抢七晋级概率72% ?大帝抢七触发不胜魔咒 官方毒奶或成X因素

颜小白的篮球梦
2026-05-01 11:15:52
失眠原因找到了!北京大学研究:睡不好的人,身体缺这种营养物质

失眠原因找到了!北京大学研究:睡不好的人,身体缺这种营养物质

路医生健康科普
2026-04-30 13:05:07
球霸姆巴佩!记者爆料:姆巴佩大闹训练场 欺负皇马员工

球霸姆巴佩!记者爆料:姆巴佩大闹训练场 欺负皇马员工

叶青足球世界
2026-05-01 09:17:27
沙漠的奇迹:土库曼斯坦如何通过中国81亿美元贷款实现经济复兴?

沙漠的奇迹:土库曼斯坦如何通过中国81亿美元贷款实现经济复兴?

七分瘦三分肥
2026-04-23 11:13:56
楼市“最大禁忌”,被打破了!

楼市“最大禁忌”,被打破了!

刘晓博说楼市
2026-04-30 18:08:43
一半中国人蛋白质没吃够!医生:50岁以上人群,每天这样吃才达标

一半中国人蛋白质没吃够!医生:50岁以上人群,每天这样吃才达标

岐黄传人孙大夫
2026-04-29 06:45:06
零跑4月交付超7万台,同比增长73.9%,双爆款火力全开

零跑4月交付超7万台,同比增长73.9%,双爆款火力全开

玩车专家1
2026-05-01 11:25:11
斯诺克名宿:遇上吴宜泽没有一颗球是安全的,他远台准度世界第一

斯诺克名宿:遇上吴宜泽没有一颗球是安全的,他远台准度世界第一

杨华评论
2026-05-01 06:57:06
偷拍员工“蹲坑照”发400人工作群 底线比隔间还低

偷拍员工“蹲坑照”发400人工作群 底线比隔间还低

大象新闻
2026-04-30 17:10:11
广州一段不到2公里的道路停了几百台车,不少都是僵尸车,有些轮胎已经气瘪了,附近街坊:抄完牌他们仍继续停;当地:将会开展整治

广州一段不到2公里的道路停了几百台车,不少都是僵尸车,有些轮胎已经气瘪了,附近街坊:抄完牌他们仍继续停;当地:将会开展整治

潇湘晨报
2026-04-30 11:55:09
宇树发布双臂人形机器人,售价2.69万起

宇树发布双臂人形机器人,售价2.69万起

大象新闻
2026-04-30 22:30:05
何小鹏透露公司改名原因

何小鹏透露公司改名原因

环球网资讯
2026-04-30 19:57:08
争冠变天!赛程表彻底倾斜,曼城6天3战极限难度,枪手吃瓜看戏

争冠变天!赛程表彻底倾斜,曼城6天3战极限难度,枪手吃瓜看戏

涛哥侃球
2026-05-01 12:54:00
无缘世锦赛4强,收获8强,扣除上缴台协,赵心童奖金还剩多少?

无缘世锦赛4强,收获8强,扣除上缴台协,赵心童奖金还剩多少?

观察鉴娱
2026-05-01 08:43:25
百亿“铜包金”融资欺诈一审宣判,人保财险严重过错仍须赔偿

百亿“铜包金”融资欺诈一审宣判,人保财险严重过错仍须赔偿

新民周刊
2026-04-30 20:56:59
炸锅!昨晚12家A股集体抛减持,9家狂减超1%,半导体龙头在列

炸锅!昨晚12家A股集体抛减持,9家狂减超1%,半导体龙头在列

慧眼看世界哈哈
2026-05-01 12:25:54
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
张雪峰重点推荐过的5所大学,分数不高,就业极好!很有性价比!

张雪峰重点推荐过的5所大学,分数不高,就业极好!很有性价比!

高三倒计时
2026-04-30 19:40:02
2026-05-01 14:40:49
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
2047文章数 20关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

山东舰遭日本侦察机抵近侦察 解放军一句警告将其喝退

头条要闻

山东舰遭日本侦察机抵近侦察 解放军一句警告将其喝退

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

游戏
旅游
本地
时尚
公开课

6万块 限量500件!《巫师3》新雕像:杰洛特希里对饮

旅游要闻

第二届南昌园艺展5月1日在安义启幕

本地新闻

用青花瓷的方式,打开西溪湿地

她们看起来气血好足,每套搭配我都想抄

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版