DeepSeek上线识图模式鲸鱼能“看懂”图了|模态|推理|新论文|deepseek

DeepSeek上线识图模式鲸鱼能“看懂”图了

分享至

IT时报记者潘少颖图豆包

当一只蓝色鲸鱼摘下眼罩，意味着什么？

4月29日，DeepSeek多模态技术负责人陈小康在社交平台留下一句“Now, we see you”，配图中两只品牌鲸鱼LOGO，一只摘去眼罩睁眼、一只仍戴着眼罩，让行业瞬间读懂：那个以长文本与代码能力出圈的DeepSeek，正式告别“纯文本时代”，迎来视觉理解的关键一跃。

而这一切，距离其新一代旗舰模型V4发布，仅过去5天。

颠覆长文本体验算力砍到“骨折”

4月24日，DeepSeek发布V4系列预览版并同步开源，作为历经15个月打磨、三次延期迭代的成果，V4系列包含旗舰版V4-Pro与轻量高效版V4-Flash，两款模型均基于MoE（混合专家）架构，将100万token超长上下文设为全系标配，可一次性处理《三体》三部曲体量的文本。

V4-Pro总参数达1.6万亿，单次推理激活490亿参数，预训练数据量达33万亿Token，刷新国产开源模型参数纪录，适合处理复杂写作、深度分析、专业逻辑推演等高难度任务；V4—Flash则主打高性价比，总参数2840亿，激活参数仅130亿，预训练数据32万亿Token，以极低推理成本提供接近旗舰版的体验，适配高频日常场景。

传统处理长文本需对所有Token全量计算，效率低、成本高，V4智能区分Token关联度，强关联信息精读，弱关联信息压缩或跳过，使计算量降至前代的27%，显存占用仅为10%，推理成本大幅下降。

此外，V4支持灵活推理模式，提供“非思考（快速响应）”“思考—高（显式推理）”“思考—极限（深度推理）”三档，复杂Agent任务可选极限模式，日常任务用思考—高模式平衡效率与效果。

V4发布后，算法竞赛平台Codeforces给出的评分为3206，超过了GPT-5.4的3168，在人类选手榜单上排名全球第23位，在代码能力层面达到行业顶尖水准。

摘下眼罩 “开眼”识图

V4虽以架构创新与极致性价比惊艳业界，但纯文本定位让不少期待多模态的用户略感遗憾。现在，这份遗憾被“识图模式”的灰度上线填补。

此次灰度开放的识图模式，是DeepSeek依托V4强大的推理底座，补齐多模态能力拼图的核心一步。不同于传统AI仅能提取图片文字的OCR能力，识图模式构建了“视觉感知+语义理解+逻辑推理”的完整闭环，真正实现从“看见”到“看懂”再到“推理”的跨越。

识图模式采用独立一级入口设计，打开DeepSeek后，输入框上方除原有的“快速模式”“专家模式”外，新增“识图模式”标签。用户上传图片，包括截图、照片、文档扫描件等，就能触发AI分析，操作逻辑与文本对话无缝衔接。

在文档处理场景，上传合同、报告、表格截图后，它不仅能精准提取文字、保留原始格式，更能自动梳理内容逻辑、总结核心观点，甚至将复杂表格转化为结构化数据，省去手动录入与整理的烦琐；日常信息解析中，海报、说明书、路牌等图片上传后，可快速抓取活动时间、使用规则、地点名称等关键信息；更能精准识别动植物品种、商品品牌、地标建筑并给出基础介绍，无论是户外识花辨木，还是逛街识别小众商品，都能一键解答；作业错题、公式图表上传后，AI能拆解题目条件、分析解题思路、标注易错步骤；上传代码截图，可自动排查语法错误、解读逻辑漏洞、优化代码结构，适配程序员调试需求……

此前，文心一言、通义千问等已实现视觉能力落地，DeepSeek此次“开眼”标志着头部国产大模型完成多模态能力布局，视觉能力从“可选配置”变为“行业标配”。

目前，识图模式仍处于灰度测试阶段，分批定向开放，尚未全量推送，功能采用免费调用+每日频次限额机制，免费用户额度耗尽需次日刷新。能力边界上，目前暂不支持图像生成、视频理解。

当蓝色鲸鱼彻底睁开眼睛，意味着DeepSeek正式告别单一纯文本能力的局限，依托V4模型打下的扎实基础，为后续多模态能力的落地埋下伏笔。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.