大数据文摘受权转载自夕小瑶科技说
刚刚,DeepSeek 的「识图模式」开始灰度了。
网页版和 App 里,有些用户已经能看到它和「快速模式」「专家模式」并列出现。
![]()
后端配置里也能看到“name: 识图模式、description: 图片理解功能内测中”,这些字段。
![]()
5 天前,DeepSeek 刚发布 V4 预览版。现在,鲸鱼终于睁眼了。
DeepSeek 识图模式刚灰度,民间评测已经开始了。大家打开手机相册,直接出题:数手指、认动漫、看表情包、读截图、猜商品、找隐藏信息、判断一只猫到底是不是「被迫营业」。
我从夕小瑶Family群和网上挑了一些网友测试case,给大家先过过眼。
第一关,看见
之前Deepseek只能识别图片里的文字,现在可以理解图片了。
![]()
这类题测的是视觉模型的基础能力。
![]()
包括这个恐龙,都能用代码画出来了。那看起来,在这类题上,DeepSeek 已经cover住了。
至少从用户截图看,它不是过去那种只会 OCR 的状态,真的把画面元素一起读进去了。
入门关,完美通过。
第二关,懂梗
网友最爱测的第二类题,是文化语境题。
![]()
它要求模型知道画面之外的东西。
谁是特朗普?谁是鲁路修?必须先知道才能答上来。这类题会结合一部分世界知识,考验理解能力。
还有这个,这个小猫给人一种什么感觉?
![]()
可以看到,对情绪的理解也相当到位。能看懂主体是啥,还能看懂大家为什么转发给它,第二关,过!
第三关,别装懂
下面是更难的第三关,反直觉题。
比如数手指、视错觉、隐藏图案、低清截图、故意模糊的二创图。
这些题很烦。它们不只考模型看没看见,还考模型逻辑推理能力。
![]()
就比如这个比大小。。
![]()
看起来,需要多让他思考几遍才能弄得明白。
DeepSeek一直以来最大的短板就是多模态。语言和推理能力卷到第一梯队了,但视觉理解一直缺位。现在补上识图,终于补了一块「多模态」短板。
GPU 训练特惠!
H100/H200 GPU算力按秒计费,平均节省开支30%以上!
扫码了解详情☝
点「赞」的人都变好看了哦!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.