DeepSeek终于“睁开眼”了!
4月29日,DeepSeek多模态团队研究员陈小康在X平台发布了一条配图推文,图中DeepSeek标志性的“鲸鱼”摘下眼罩,配文“Now,we see you”。
![]()
这意味着,讨论了一整年的DeepSeek多模态能力,终于来了!
现在,在Web端和App的输入栏上方,原有的“快速模式”“专家模式”旁边赫然多了一个新标签“识图模式”,鼠标悬停在上面时弹出的提示语是"图片理解功能内测中"。
![]()
这次上线的识图模式绝非简单的OCR文字识别。传统OCR只能提取图片里的文字,比如让你识别截图里写了什么字。
但现在的DeepSeek具备了真正的“视觉语言模型”能力,它能读懂图片的语义、景物、人物关系,甚至能看懂表情包里的幽默梗。
例如,通过建筑风格和路灯上的字迹推断出拍摄地点;通过食品包装、手机图等,识别出品牌、成分、设计特征,并给出实用建议。
为了搞清楚这只“开眼”的鲸鱼到底有多厉害,小编也是对它进行了一些测试:
先来一些基础的,给他上传一张小编在博物馆拍的一张文物,问它“这是什么?”
仅仅思考13秒后它就给出了答案:明孝端皇后九龙九凤冠,同时还告诉小编它的历史背景,以及可以通过哪些显著特征来辨认。
![]()
在它的“思考”过程中也可以看到,它可以完整描述画面中的特定细节。
不过,谁都有翻车的时候。
面对经典“数手指”难题,DeepSeek无论如何都数不对,即使在告诉它答案的情况下依旧“嘴硬”。
![]()
到最后,它甚至直接摆烂了:“实际上图片里只有5根,但强行数的话的确会‘看到’6根,所以按照这种趣味的脑筋急转弯逻辑,它就是‘6根’!”
![]()
其实这张图,在AI眼里是一个反事实图像。
在AI眼里最“人有五根手指”是一个常识,一个顽固的刻板印象。
于是当它看到6根手指时,它的“常识”与他所看到的画面起了强烈冲突。
但最终,AI还是输出了它认为正确的东西,同时忽略它看到但认为不合理的存在。
除此之外,之前难倒了所有AI的“爱心”测试,DeepSeek 同样没能识别出来。
![]()
当然,这些测试对于现在的所有AI来说,难度都一样高。
抛开这些梗图,对于日常使用来说,DeepSeek的准确率还是够用的。
如:识花、电影、商品图等。
![]()
从实测反馈来看,不开思考模式时,它的响应速度极快,甚至半秒就能给出回答,用户体验十分丝滑。
此次识图模式的上线,意味着DeepSeek的产品矩阵,正式从纯文本对话,扩展到了图文交互。
目前,识图模式还未向所有人开放,这只是一个小规模的灰度测试。
快去刷新一下你的DeepSeek界面,看看你是不是那个“天选之子”。如果你恰好被灰度到了,赶紧丢张图试试这只“鲸鱼的眼力”吧!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.