DeepSeek，重大发布！|推理|模态|编码器|kimi|正式版模型|deepseek

DeepSeek，重大发布！

2026-01-28 07:47:46　来源: 数据宝

广东举报

分享至

数据是个宝

投资少烦恼

1月27日，DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文，并开源DeepSeek-OCR 2模型，采用创新的DeepEncoder V2方法，让AI（人工智能）能够根据图像的含义动态重排图像的各个部分，更接近人类的视觉编码逻辑。

与此同时，国内人工智能初创公司月之暗面Kimi正式发布了新一代开源模型 Kimi K2.5。据介绍，Kimi K2.5基于原生多模态架构设计，支持视觉与文本输入，将视觉理解与推理、编程、Agent等能力全部集成到一个模型当中。

另外，阿里昨日（1月26日）晚间正式发布千问旗舰推理模型Qwen3-Max-Thinking，在多项关键性能基准测试中，千问表现超过了GPT-5.2、Claude Opus 4.5 和Gemini 3 Pro等顶尖模型，刷新全球纪录，进一步拓展了AI系统的推理性能边界。

DeepSeek发布新模型

1月27日，DeepSeek发布全新DeepSeek-OCR 2模型，采用创新的DeepEncoder V2方法，让AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段，而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

根据DeepSeek公布的技术报告，DeepSeek-OCR 2在多项关键指标上展现出显著优势。在OmniDocBench v1.5基准测试中，该模型取得了91.09%的成绩，相较于前代DeepSeek-OCR提升了3.73%。

值得注意的是，该模型在保持极高精度的同时，严格控制了计算成本，其视觉Token数量被限制在256至1120之间，这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中，该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%，显示出极高的实用成熟度。

根据DeepSeek公布的技术报告，现有的视觉语言模型（VLMs）通常采用固定的光栅扫描顺序（光栅扫描顺序）处理图像切片，即机械地从左上角扫描至右下角。DeepSeek团队指出，这种方式引入了不必要的归纳偏差，与人类视觉感知背道而驰。人类在阅读复杂文档、表格或追踪螺旋线条时，视线是受语义理解驱动的“因果流”，后一次注视往往因果依赖于前一次注视，而非单纯的空间坐标移动。

受此认知机制启发，DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”（Causal Flow Queries），模型能够在进入LLM解码器进行内容解释之前，先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构：首先由编码器在语义上重组视觉Token，随后由解码器对有序序列进行自回归推理。

这种设计不仅符合光学文本、表格和公式的非线性布局特征，还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

DeepSeek-OCR 2的发布不仅是一次OCR性能的升级，更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果，如混合专家（MoE）架构和高效注意力机制。

DeepSeek团队认为，这为迈向统一的全模态编码器提供了一条有希望的路径。未来，单一编码器可能通过配置特定模态的可学习查询，在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式，通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务，或许代表了实现真正2D推理的一种突破性架构方法。

阿里、月之暗面也有大动作

同日，月之暗面Kimi正式发布了新一代开源模型 Kimi K2.5。

此次升级通过静默推送方式实现在官网聊天界面的自动更新，原K2模型已无缝切换为K2.5，用户无需手动操作。更新旨在提升响应速度、推理能力与多轮对话稳定性，覆盖全部Web端用户。该版本未开放独立入口或下载安装包，仅以服务端模型替换形式落地。

据介绍，作为Kimi目前最智能的模型，K2.5在HLE（人类最后的考试）、BrowseComp、 DeepSearchQA等多项agent评测中均取得全球开源模型的最佳成绩。

作为一个全能型模型，Kimi K2.5基于原生多模态架构设计，支持视觉与文本输入，将视觉理解与推理、编程、Agent等能力全部集成到一个模型当中。

Kimi创始人、CEO杨植麟表示：“我们重构了强化学习的基建，并专门优化了训练算法，以确保它能达到极致的效率和性能。”

另外，阿里巴巴26日晚间正式发布千问旗舰推理模型Qwen3-Max-Thinking，在多项关键性能基准测试中，千问表现超过了GPT-5.2、Claude Opus 4.5 和Gemini 3 Pro等顶尖模型，刷新全球纪录，进一步拓展了AI系统的推理性能边界。

通过总参数、强化学习、推理计算的极致规模扩展，千问新模型实现了性能的大幅飞跃，刷新科学知识（GPQA Diamond）、数学推理（IMO-AnswerBench）、代码编程（LiveCodeBench）等多项关键性能基准测试的全球纪录。

具体来看，在关键的模型推理能力提升中，千问新模型采用了一种全新的测试时扩展（Test-time Scaling）机制，推理性能提升的同时还更经济。

阿里方面表示，Qwen3-Max-Thinking总参数超万亿，进行了更大规模的强化学习后训练，并通过推理技术的系列创新，最终完成模型性能的大幅飞跃。其还大幅增强了自主调用工具的原生Agent能力，模型可像专业人士一样边用工具边思考。同时，模型幻觉也大为降低，为解决真实复杂任务打下基础。目前，普通用户可通过千问PC端和网页端试用新模型，千问APP也即将接入，所有用户都可免费体验。

来源：券商中国

声明：数据宝所有资讯内容不构成投资建议，股市有风险，投资需谨慎。

责编：林丽峰

校对：吕久彪

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.