2026年5月9日,DeepSeek的识图模式今日正式全面开放,所有用户均可在网页端以及App上使用“识图模式”,这款广受好评的语言类大模型,终于也是进入多模态时代了。
原有OCR识别的弊端
这可不是原先右下角塞进去的图像识别,那本质上只是个OCR模块,单纯的把图像中的文字读取出来后再输入到文字框中。所以模型最终读到的,还是文字内容。
![]()
这样“曲线救国”的形式在以文字为主的图片时还堪能用,但当图片中有复杂的构图、排版,甚至是完全没有文字的艺术图,它基本上就抓瞎了。
全新识图模型上线
而在4月29日,Deep-Seek-V4上线仅5天的时候,DeepSeek网页端便悄然的上线了视觉理解的功能,在“快速模式”和“专家模式”之外,新增了“识图模式”的入口可供使用。当时仍然在灰度测试中,但根据获得测试资格的用户的反馈和网上交流,此次的进步堪称革命性的:它真正的给予了DeepSeek原生识别、理解图片的能力,不仅拥有常规的文字识别,更有高级的图像内容、结构甚至是空间推理的信息能力。
![]()
在全面放开视图模式后,我们也对这一模型进行了测试:我们在测试中上传了一张上海美术电影制片厂经典动画《大闹天宫》的孙悟空造型图。
![]()
DeepSeek的识图模式不仅准确的识别出角色是“孙悟空”,指出造型来源于《大闹天宫》,还能给出清晰的判断依据:虎皮裙的造型、京剧脸谱的猴脸、抬腿独立的姿态。
最后,模型还给出了对这张图的评价“充满中国传统戏曲的韵味”。这已经充分说明了其的识别能力。
![]()
我们也试着使用了传统的图片识别,模型根本无法识别内容,官方也会推荐切换到识图模式。
DeepSeek的一大步
作为全球顶尖的大模型之一,尤其是作为开源模型的中流砥柱,DeepSeek最大的遗憾就是仅支持文字输入。
而如今随着识图模式全面开放,DeepSeek已经成为头部国产大模型中完成多模态能力布局的关键一员,开始正式对标OpenAI、Anthropic等国际平台。
![]()
虽说DeepSeek目前仍不具备图像生成能力,识图的API接口也尚未开放,但这一切都只是时间问题,从图像识别到图像生成的路径,已经远比从文字到图像识别的路径短上许多。
更重要的是,DeepSeek 始终坚持廉价、亲民、高效的路线。基于V4协议的视觉识别能力,在识别效率上明显优于GPT等同类产品,而使用成本却远低于行业平均水平:识别一张800×800图像仅消耗约90 tokens。
这意味着,无论是学生、职场人还是设计师,都能以一个极低的门槛,享受到顶级的图文理解能力。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.