DeepSeek终于「不瞎」了!
大家注意到了吗,DeepSeek悄悄上线了「识图模式」,可以支持图片理解了。p2
在DeepSeek的web或者app界面里,原有的「快速模式」和「专家模式」右侧,出现了一个全新「视图模式」。
以前,DeepSeek对于图片,只有OCR能力,也就是说只能识别并提取图片里额文字,而不具备完整的视觉能力,无法理解图片内容。
现在,DeepSeek告别了睁眼瞎历史。
我先测试了一下「老鼠夹子」图片的识别,网上流传着一个笑话:豆包会把老鼠夹子识别成卡丁车玩具[奸笑]。
DeepSeek这次没有翻车,而且实测中反应速度极快,几乎是零延迟输出。p3(当然,我也试了豆包,豆包也不翻车,不过豆包会自动启用搜索功能,以保证更精准、更具备时效的回答,而DS的视图是不带联网搜索的,所以反应更快。)
不要小看这个识图功能,DeepSeek可以不支持多模态,不去卷生图、生视频的赛道,但是原生视觉理解功能非常有必要。(以前鹅厂元宝有个买点,就是作为DeepSeek的识图外挂。[跳跳])
这一点,对智能体和Coding场景也非常有价值↓
智能体看屏幕、看界面、看现实环境,都可以用DS的原生识图能力了
丢一张UI截图,直接生成前端代码,看产品原型,直接给修改建议。当然,你也终于可以用DeepSeek来玩数独和找不同了。
刚刚我把Anthropic的官网首页丢给DeepSeek,瞬间帮我复刻出前端代码,相当丝滑。p4
不过,目前这个识图能力,只是灰度测试,并没有面向所有人开放,能不能有,要看运气。
怎么样,现在打开你的DeepSeek,看看你被官方偏爱了吗?
识图的一小步,却是DeepSeek迈向多模态的一大步[旺柴]
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.