IT时报记者 潘少颖 图 豆包
当一只蓝色鲸鱼摘下眼罩,意味着什么?
4月29日,DeepSeek多模态技术负责人陈小康在社交平台留下一句“Now, we see you”,配图中两只品牌鲸鱼LOGO,一只摘去眼罩睁眼、一只仍戴着眼罩,让行业瞬间读懂:那个以长文本与代码能力出圈的DeepSeek,正式告别“纯文本时代”,迎来视觉理解的关键一跃。
![]()
而这一切,距离其新一代旗舰模型V4发布,仅过去5天。
颠覆长文本体验 算力砍到“骨折”
4月24日,DeepSeek发布V4系列预览版并同步开源,作为历经15个月打磨、三次延期迭代的成果,V4系列包含旗舰版V4-Pro与轻量高效版V4-Flash,两款模型均基于MoE(混合专家)架构,将100万token超长上下文设为全系标配,可一次性处理《三体》三部曲体量的文本。
V4-Pro总参数达1.6万亿,单次推理激活490亿参数,预训练数据量达33万亿Token,刷新国产开源模型参数纪录,适合处理复杂写作、深度分析、专业逻辑推演等高难度任务;V4—Flash则主打高性价比,总参数2840亿,激活参数仅130亿,预训练数据32万亿Token,以极低推理成本提供接近旗舰版的体验,适配高频日常场景。
传统处理长文本需对所有Token全量计算,效率低、成本高,V4智能区分Token关联度,强关联信息精读,弱关联信息压缩或跳过,使计算量降至前代的27%,显存占用仅为10%,推理成本大幅下降。
此外,V4支持灵活推理模式,提供“非思考(快速响应)”“思考—高(显式推理)”“思考—极限(深度推理)”三档,复杂Agent任务可选极限模式,日常任务用思考—高模式平衡效率与效果。
V4发布后,算法竞赛平台Codeforces给出的评分为3206,超过了GPT-5.4的3168,在人类选手榜单上排名全球第23位,在代码能力层面达到行业顶尖水准。
摘下眼罩 “开眼”识图
V4虽以架构创新与极致性价比惊艳业界,但纯文本定位让不少期待多模态的用户略感遗憾。现在,这份遗憾被“识图模式”的灰度上线填补。
此次灰度开放的识图模式,是DeepSeek依托V4强大的推理底座,补齐多模态能力拼图的核心一步。不同于传统AI仅能提取图片文字的OCR能力,识图模式构建了“视觉感知+语义理解+逻辑推理”的完整闭环,真正实现从“看见”到“看懂”再到“推理”的跨越。
识图模式采用独立一级入口设计,打开DeepSeek后,输入框上方除原有的“快速模式”“专家模式”外,新增“识图模式”标签。用户上传图片,包括截图、照片、文档扫描件等,就能触发AI分析,操作逻辑与文本对话无缝衔接。
在文档处理场景,上传合同、报告、表格截图后,它不仅能精准提取文字、保留原始格式,更能自动梳理内容逻辑、总结核心观点,甚至将复杂表格转化为结构化数据,省去手动录入与整理的烦琐;日常信息解析中,海报、说明书、路牌等图片上传后,可快速抓取活动时间、使用规则、地点名称等关键信息;更能精准识别动植物品种、商品品牌、地标建筑并给出基础介绍,无论是户外识花辨木,还是逛街识别小众商品,都能一键解答;作业错题、公式图表上传后,AI能拆解题目条件、分析解题思路、标注易错步骤;上传代码截图,可自动排查语法错误、解读逻辑漏洞、优化代码结构,适配程序员调试需求……
此前,文心一言、通义千问等已实现视觉能力落地,DeepSeek此次“开眼”标志着头部国产大模型完成多模态能力布局,视觉能力从“可选配置”变为“行业标配”。
目前,识图模式仍处于灰度测试阶段,分批定向开放,尚未全量推送,功能采用免费调用+每日频次限额机制,免费用户额度耗尽需次日刷新。能力边界上,目前暂不支持图像生成、视频理解。
当蓝色鲸鱼彻底睁开眼睛,意味着DeepSeek正式告别单一纯文本能力的局限,依托V4模型打下的扎实基础,为后续多模态能力的落地埋下伏笔。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.