网易首页 > 网易号 > 正文 申请入驻

DeepSeek 开放识图模式,跨入图文交互时代

DeepSeek正式跨入图文交互时代

0
分享至

据IT之家报道,上个月底,DeepSeek 开始灰度测试“识图模式”。该模式并非简单的文字 OCR,而是终于具备了图片识别理解能力。最新据用户反馈,DeepSeek 已经大范围开放“识图模式”供用户体验,目前几乎所有测试账号都能看到该入口。

拥有灰度测试资格的用户会发现,输入框上方与“快速模式”和“专家模式”并列,出现了一个全新的“识图模式”按钮。在具体的实测体验中,开启该模式后,用户可以直接上传图片让 DeepSeek“看”世界,其能力边界远超简单的文字提取。

在基础的图像识别领域,它成功变身为一名“博物学家”,例如有网友上传了在博物馆拍摄的不明文物,开启“深度思考”后,DeepSeek 不仅详细描述了纹理与材质,甚至准确推断出某件玉器属于 18 世纪清代乾隆时期的“痕都斯坦风格”;在面对烧脑的逻辑题时,它同样展现出硬核的推理能力,在一项需要在脑海中拼合立方体的高难度空间推理题中,虽然不开思考模式容易给出错误答案,但一旦开启深度思考并耗费了长达 4 分钟左右的时间,最终给出了正确的答案;此外,它还被验证了极强的“网感”,上传时下流行的表情包或梗图,它能精准识别合照中的人物(例如从一张合影中同时精确区分出特朗普和鲁路修),甚至能解读出小猫的无奈情绪,准确理解网民的转发笑点;在生产力方面,它还可以充当万能的“截图转码器”,直接将包含代码、复杂 UI 界面的技术报告或网页截图进行解析,提取出所有文字,甚至能一键反向生成可交互的 HTML 代码,连原网页的跳转按钮都能原封不动地予以复原。

伴随着识图模式的上线,DeepSeek 上月底还公开了其背后的多模态模型技术细节,公布了一种名为“Thinking with Visual Primitives(以视觉原语思考)”的核心框架。

据 DeepSeek 发布的技术报告解释,传统多模态大模型在面对密集场景时存在一种名为“指代鸿沟”的困境,模型虽然能看见图片,但在推理过程中用“左边那个大的”等模糊的自然语言构建逻辑链时,很容易因描述不准导致注意力漂移。

DeepSeek 给出的解法是,将点、边界框等代表空间位置的视觉元素直接融入模型的推理链条,使其成为“思维的基本单元”。这种创新框架使得模型在推理时就像人类用“赛博手指”在脑海中精确指出目标物一样,边想边指,从而完美解决了复杂空间布局中的逻辑难题。

更令人惊叹的是,这种高效的框架在实际运算中对算力资源非常友好,在处理一张 800×800 分辨率的图片时,DeepSeek 仅消耗约 90 个 tokens,而 GPT 和 Claude 等其他主流模型在处理同等图片时则需要消耗约 870 到 1100 个 tokens,且 DeepSeek 在多项计数与空间推理的基准测试上达到了比肩甚至超越了前沿模型的水平。

另外需要提醒的是,刚学会“睁眼”的 DeepSeek 并没有大家想象中那么完美。综合大量用户实测反馈来看,目前的识图模式仍存在几处明显不足:

  • 首先是知识库更新的滞后性,在某些测试中,虽然模型的推理过程和分析逻辑完全正确,但最终答案却张冠李戴 —— 例如在识别某款 2025 年底发布的最新型号手机时,因其知识库停留在 2025 年,虽然能通过副屏细节推断出旧型号,但仍给出了完全错误的具体型号;

  • 其次,在面对数图中老虎数量、视错觉等高难度反直觉图形题目时,它的答案依然存在很大的不确定性,甚至有时在经过长时间“深度思考”后,反而出现了更严重的幻觉,导致最终逻辑崩溃。

还有一点需要明确的是,目前 DeepSeek 上线的识图模式本质上是纯视觉理解模块,它主要集中在图片识别与分析层面,尚未集成图像生成、视频理解或跨模态交互等更为广义的多模态功能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
缺德到这种地步,已经不是讽刺的问题了!

缺德到这种地步,已经不是讽刺的问题了!

胖胖说他不胖
2026-05-08 08:55:19
苦等13年!深圳巨无霸城中村旧改规划公示,周边房价要变天

苦等13年!深圳巨无霸城中村旧改规划公示,周边房价要变天

童童聊娱乐啊
2026-05-08 14:16:35
罕见啊!毁车+恐吓+醉驾+亲子鉴定!这连环计太可怕了!!

罕见啊!毁车+恐吓+醉驾+亲子鉴定!这连环计太可怕了!!

柚子说球
2026-05-09 20:45:00
巴西免签了,但你可能根本去不了

巴西免签了,但你可能根本去不了

BT财经
2026-05-08 08:24:02
鲁尼:曼联踢得像赛季末例行公事;下赛季踢欧冠今夏得大引援

鲁尼:曼联踢得像赛季末例行公事;下赛季踢欧冠今夏得大引援

懂球帝
2026-05-10 02:05:27
彻底不装了?特朗普访华再生变!中方提的要求,美方竟然一口回绝

彻底不装了?特朗普访华再生变!中方提的要求,美方竟然一口回绝

到此为止的印象
2026-05-09 13:39:53
官僚主义最阴狠的套路:把所有风险,砸向最底层

官僚主义最阴狠的套路:把所有风险,砸向最底层

职场资深秘书
2026-05-08 20:44:41
商务部国际贸易谈判代表兼副部长李成钢:中方希望发出三个信号

商务部国际贸易谈判代表兼副部长李成钢:中方希望发出三个信号

新浪财经
2026-05-09 23:29:15
美军称继续执行对伊朗的海上封锁

美军称继续执行对伊朗的海上封锁

新京报
2026-05-10 08:09:05
续航一夜蒸发200公里,8家新能源车企远程“锁电”被约谈,3家被立案调查

续航一夜蒸发200公里,8家新能源车企远程“锁电”被约谈,3家被立案调查

金融界
2026-05-07 18:29:15
充电速度“行业垫底”,特斯拉的充电这么慢!为何没有车主吐槽?

充电速度“行业垫底”,特斯拉的充电这么慢!为何没有车主吐槽?

少数派报告Report
2026-05-09 04:41:12
“汉坦病毒”来袭,医生提醒:宁可每天看电视,也不要出门做7事

“汉坦病毒”来袭,医生提醒:宁可每天看电视,也不要出门做7事

普陀动物世界
2026-05-09 05:16:15
骑士4核3人爆发轰82分!唯独球队非卖品拉了,真该拿他换字母哥

骑士4核3人爆发轰82分!唯独球队非卖品拉了,真该拿他换字母哥

你的篮球频道
2026-05-10 07:19:46
特朗普访华事宜出现变数,中方提出的相关要求未获美方同意

特朗普访华事宜出现变数,中方提出的相关要求未获美方同意

你是我心中最美星空
2026-05-10 01:30:18
赌王最不愿提起的家族秘闻:是的,我妹妹和我弟弟有一个孩子

赌王最不愿提起的家族秘闻:是的,我妹妹和我弟弟有一个孩子

小熊侃史
2026-04-05 13:47:04
上海主帅:季后赛四强完成集团考核任务 接下来要卸下包袱重新出发

上海主帅:季后赛四强完成集团考核任务 接下来要卸下包袱重新出发

狼叔评论
2026-05-09 23:06:03
帕森斯:不想贬低哈登生涯,但他季后赛产量和效率都有下降

帕森斯:不想贬低哈登生涯,但他季后赛产量和效率都有下降

林子说事
2026-05-09 19:37:51
伊朗高级官员警告:“别亲手关死霍尔木兹海峡的大门”

伊朗高级官员警告:“别亲手关死霍尔木兹海峡的大门”

新京报
2026-05-10 08:09:10
天天吃“伟哥”到底安不安全?医生:牢记这四步,才算真正用对药

天天吃“伟哥”到底安不安全?医生:牢记这四步,才算真正用对药

普陀动物世界
2026-05-10 04:57:08
26-22票通过!亲华总理遭罢免,新候选人态度不一般

26-22票通过!亲华总理遭罢免,新候选人态度不一般

悲伤逆流成河水
2026-05-09 12:52:11
2026-05-10 08:48:49
DoNews incentive-icons
DoNews
不局限于对互联网行业的追踪与探索,更要向未来、向未知的方向迈进。
107093文章数 26827关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

美军对伊朗多个目标发动打击 伊朗革命卫队深夜警告

头条要闻

美军对伊朗多个目标发动打击 伊朗革命卫队深夜警告

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

健康
教育
旅游
数码
手机

干细胞能让人“返老还童”吗

教育要闻

26高考选专业,普通家庭该避开哪些坑?

旅游要闻

早安!花开好市火热进行,周末来赴一场花漾约会吧

数码要闻

TCL华星t8项目提前封顶 印刷OLED规模化量产提速

手机要闻

iQOO 15T首发天玑9500特别版:实测帧率无敌 稳如泰山

无障碍浏览 进入关怀版