网易首页 > 网易号 > 正文 申请入驻

10倍压缩率,97%解码精度!DeepSeek开源新模型,为何赢得海内外关注

0
分享至

DeepSeek开源新模型:用视觉模式实现上下文压缩。

10月20日,DeepSeek宣布开源最新大模型DeepSeek-OCR。所谓的OCR,据DeepSeek在论文中解释称,是通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心引擎,设计为在高分辨率输入下保持低激活,同时实现高压缩比,以确保视觉tokens数量优化且可管理。

通俗而言,这是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

据公布的论文名单显示,该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,但这三位核心作者都颇为低调,其中一作作者Haoran Wei曾在阶跃星辰工作过,曾主导开发旨在实现“第二代 OCR”的GOT-OCR2.0系统。

DeepSeek-OCR的架构分为两部分。一是DeepEncoder,一个专为高压缩、高分辨率文档处理设计的视觉编码器;二是DeepSeek3B-MoE,一个轻量级混合专家语言解码器。这款刚开源不久的新模型,发布后就得到海外科技媒体广泛赞美,有网友盛赞:“这是AI的JPEG时刻。”

前特斯拉AI总监、OpenAI创始成员安德烈·卡帕西(Andrej Karpathy)在社交媒体高度评价DeepSeek的新模型,他表示,自己相当喜欢新的DeepSeek-OCR论文,“它是一个很好的OCR模型(可能比dots稍微差一点),是的,数据收集等等,但无论如何都不重要。对我来说更有趣的部分(尤其是作为一个以计算机视觉为核心,暂时伪装成自然语言的人)是像素是否比文本更适合作为LLM的输入。文本标记是否浪费且糟糕,作为输入。”

根据他的设想,或许所有LLM的输入都只应该是图像。即便是纯文本内容,也应该先渲染成图片再输入给模型,其中理由包括:信息压缩效率更高、像素更通用、支持双向注意力、可淘汰存在安全隐患的分词器(Tokenizer)。

特斯拉创始人马斯克(Elon Musk)也现身评论区,并表示:“从长远来看,AI模型超过99%的输入和输出都将是光子,没有其他任何东西可以规模化。”

知名科技媒体《麻省理工科技评论》解释称,DeepEncoder是整个系统的关键所在。它的设计目标在于,在处理高分辨率输入图像的同时,保持较低的激活内存,并实现极高的压缩比。为达到这一目的,DeepEncoder融合两种成熟的视觉模型架构:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力机制(window attention)见长,擅长处理局部细节,构成编码器的前半部分;后者则依赖密集的全局注意力机制(global attention),能够捕获整体知识信息。

《麻省理工科技评论》表示,除了文本识别性能,DeepSeek-OCR还具备较强的“深度解析”能力。这得益于其训练数据中包含了图表、化学分子式、几何图形等多样化的视觉内容。因此,模型不仅能识别标准文本,还能对文档中嵌入的复杂元素进行结构化解析。例如,它可以将报告中的图表转换为表格数据,将化学文献中的分子式输出为SMILES格式,或解析几何图形中的线段关系。这种超越传统文本识别的能力,拓展了其在金融、科研、教育等专业领域的应用空间。

DeepSeek介绍,实验表明,当文本tokens数量在视觉tokens的10倍以内(即压缩比<10×)时,模型可达到97%的OCR精度。即使在20×压缩比下,OCR精度仍保持在约60%。这为历史长上下文压缩和LLM中的记忆遗忘机制等研究领域展示可观前景。

DeepSeek-OCR还初步验证上下文光学压缩的可行性,证明模型可以从少量视觉tokens中有效解码超过10倍数量的文本tokens。DeepSeek-OCR也是一个高度实用的模型,可大规模生产预训练数据,“未来,我们将进行数字-光学文本交错预训练、大海捞针测试等进一步评估,继续推动这一有前景的研究方向。”

据海外科技媒体分析,研究团队表示,在基准测试中,DeepSeek-OCR优于多个主流模型,且使用的视觉tokens数量少得多。此外,单张A100-40G GPU每天可生成超过20万页的训练数据,可为大型语言模型和视觉-语言模型的开发提供支持。

前网易副总裁、杭州研究院执行院长汪源发文表示,DeepSeek-OCR模型是一个专门能“读懂”图片里文字的AI模型。但厉害的地方不是简单“识字”,是采用了一种非常新颖的思路:把文字当成图片来处理和压缩。

汪源认为,可以把它想象成一个超级高效的“视觉压缩器”,传统的AI模型是直接“读”文本,但 DeepSeek-OCR 是先“看”文本的图像,然后把一页文档的图片信息高度压缩成很少的视觉tokens。DeepSeek-OCR的能力强在能把一篇1000字的文章,压缩成100个视觉tokens。在十倍的压缩下,识别准确率可以达到96.5%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
左路大变天!阿森纳锁定 7000 万边路王牌,埃泽专属黄金搭档来了

左路大变天!阿森纳锁定 7000 万边路王牌,埃泽专属黄金搭档来了

澜归序
2026-04-28 07:00:38
数百名医生强调:只要做过肠镜检查,患者一定多加关注这4点

数百名医生强调:只要做过肠镜检查,患者一定多加关注这4点

健康科普365
2026-04-27 13:15:12
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-31 15:11:31
上海地铁抢座反转:两人都有座位,目击者曝料细节,果然不简单

上海地铁抢座反转:两人都有座位,目击者曝料细节,果然不简单

超喜欢我
2026-04-27 12:41:17
同样是龙洋,素颜和上镜差别这么大?

同样是龙洋,素颜和上镜差别这么大?

喜欢历史的阿繁
2026-04-28 11:24:44
配钥匙2元起、雨伞和拉链3元起……为了楼下一个摊子,杭州女孩不愿搬离老小区

配钥匙2元起、雨伞和拉链3元起……为了楼下一个摊子,杭州女孩不愿搬离老小区

都市快报橙柿互动
2026-04-26 13:09:15
中央明确了!社保最低缴费年限要提高,70、80后得早做准备

中央明确了!社保最低缴费年限要提高,70、80后得早做准备

云鹏叙事
2026-04-12 16:36:39
万科原总裁祝九胜刑期预测

万科原总裁祝九胜刑期预测

地产微资讯
2026-04-27 09:36:25
郑丽文成功了!国民党3位元老出山,朱立伦的反扑计划宣告失败

郑丽文成功了!国民党3位元老出山,朱立伦的反扑计划宣告失败

米果说识
2026-04-21 16:58:00
浙江绍兴一空载列车撞上保洁员,致3人死亡1人重伤,绍兴轨道交通集团被罚115万元

浙江绍兴一空载列车撞上保洁员,致3人死亡1人重伤,绍兴轨道交通集团被罚115万元

大风新闻
2026-04-27 14:34:07
心梗去世的人越来越多?医生再次强调:宁可打打牌,也别做这6事

心梗去世的人越来越多?医生再次强调:宁可打打牌,也别做这6事

医学科普汇
2026-04-27 19:55:08
又一个国家要挨揍了?俄军大将宣布:要不惜一切保护该国22万俄侨

又一个国家要挨揍了?俄军大将宣布:要不惜一切保护该国22万俄侨

蜉蝣说
2026-04-28 11:13:31
太疯了!!遭遇死亡威胁!他全家都被威胁....

太疯了!!遭遇死亡威胁!他全家都被威胁....

柚子说球
2026-04-27 21:45:49
死了这条心!人民日报表态:中国不会救菲律宾,马科斯投机到头了

死了这条心!人民日报表态:中国不会救菲律宾,马科斯投机到头了

风干迷茫人
2026-04-24 16:01:23
普京:俄罗斯将全力推动中东尽快实现和平

普京:俄罗斯将全力推动中东尽快实现和平

澎湃新闻
2026-04-28 04:11:05
吴瑞林被押赴刑场,行刑前主席密信强行叫停,死里逃生的他去海参崴干了啥大事?

吴瑞林被押赴刑场,行刑前主席密信强行叫停,死里逃生的他去海参崴干了啥大事?

历史回忆室
2026-04-15 23:54:11
美国司法部锁定384人:归化公民身份面临撤销

美国司法部锁定384人:归化公民身份面临撤销

心事寄山海
2026-04-28 00:51:52
霍尔木兹一声惊雷!中国万亿产业突然爆发,特朗普始料未及

霍尔木兹一声惊雷!中国万亿产业突然爆发,特朗普始料未及

信息风云
2026-04-27 20:53:32
鹅肉立大功!中科院研究发现:鹅肉可促进免疫细胞再生,可多吃

鹅肉立大功!中科院研究发现:鹅肉可促进免疫细胞再生,可多吃

Thurman在昆明
2026-04-23 17:05:10
致敬!101岁的浙江老省委书记,生于地主家庭,却为国为民

致敬!101岁的浙江老省委书记,生于地主家庭,却为国为民

执史侠
2026-04-28 04:41:37
2026-04-28 11:59:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
892480文章数 5090488关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

美军事资产被指"损失惨重" 修复费用可能高达50亿美元

头条要闻

美军事资产被指"损失惨重" 修复费用可能高达50亿美元

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

杨幂险遭蒸汽眼罩毁容!伤照曝光…

财经要闻

俞敏洪再遭重击

汽车要闻

上汽大众“攻山头” ID.ERA 9X剑指细分前三

态度原创

时尚
家居
房产
公开课
军事航空

T恤+阔腿裤、衬衫+阔腿裤,今年夏天最火的搭配,谁穿谁时髦!

家居要闻

江景风格 流动的秩序

房产要闻

信号!海南商业版图,迎来大变局!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗外长折返伊斯兰堡内情披露

无障碍浏览 进入关怀版