网易首页 > 网易号 > 正文 申请入驻

10倍压缩率,97%解码精度!DeepSeek开源新模型,为何赢得海内外关注

0
分享至

DeepSeek开源新模型:用视觉模式实现上下文压缩。

10月20日,DeepSeek宣布开源最新大模型DeepSeek-OCR。所谓的OCR,据DeepSeek在论文中解释称,是通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心引擎,设计为在高分辨率输入下保持低激活,同时实现高压缩比,以确保视觉tokens数量优化且可管理。

通俗而言,这是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

据公布的论文名单显示,该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,但这三位核心作者都颇为低调,其中一作作者Haoran Wei曾在阶跃星辰工作过,曾主导开发旨在实现“第二代 OCR”的GOT-OCR2.0系统。

DeepSeek-OCR的架构分为两部分。一是DeepEncoder,一个专为高压缩、高分辨率文档处理设计的视觉编码器;二是DeepSeek3B-MoE,一个轻量级混合专家语言解码器。这款刚开源不久的新模型,发布后就得到海外科技媒体广泛赞美,有网友盛赞:“这是AI的JPEG时刻。”

前特斯拉AI总监、OpenAI创始成员安德烈·卡帕西(Andrej Karpathy)在社交媒体高度评价DeepSeek的新模型,他表示,自己相当喜欢新的DeepSeek-OCR论文,“它是一个很好的OCR模型(可能比dots稍微差一点),是的,数据收集等等,但无论如何都不重要。对我来说更有趣的部分(尤其是作为一个以计算机视觉为核心,暂时伪装成自然语言的人)是像素是否比文本更适合作为LLM的输入。文本标记是否浪费且糟糕,作为输入。”

根据他的设想,或许所有LLM的输入都只应该是图像。即便是纯文本内容,也应该先渲染成图片再输入给模型,其中理由包括:信息压缩效率更高、像素更通用、支持双向注意力、可淘汰存在安全隐患的分词器(Tokenizer)。

特斯拉创始人马斯克(Elon Musk)也现身评论区,并表示:“从长远来看,AI模型超过99%的输入和输出都将是光子,没有其他任何东西可以规模化。”

知名科技媒体《麻省理工科技评论》解释称,DeepEncoder是整个系统的关键所在。它的设计目标在于,在处理高分辨率输入图像的同时,保持较低的激活内存,并实现极高的压缩比。为达到这一目的,DeepEncoder融合两种成熟的视觉模型架构:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力机制(window attention)见长,擅长处理局部细节,构成编码器的前半部分;后者则依赖密集的全局注意力机制(global attention),能够捕获整体知识信息。

《麻省理工科技评论》表示,除了文本识别性能,DeepSeek-OCR还具备较强的“深度解析”能力。这得益于其训练数据中包含了图表、化学分子式、几何图形等多样化的视觉内容。因此,模型不仅能识别标准文本,还能对文档中嵌入的复杂元素进行结构化解析。例如,它可以将报告中的图表转换为表格数据,将化学文献中的分子式输出为SMILES格式,或解析几何图形中的线段关系。这种超越传统文本识别的能力,拓展了其在金融、科研、教育等专业领域的应用空间。

DeepSeek介绍,实验表明,当文本tokens数量在视觉tokens的10倍以内(即压缩比<10×)时,模型可达到97%的OCR精度。即使在20×压缩比下,OCR精度仍保持在约60%。这为历史长上下文压缩和LLM中的记忆遗忘机制等研究领域展示可观前景。

DeepSeek-OCR还初步验证上下文光学压缩的可行性,证明模型可以从少量视觉tokens中有效解码超过10倍数量的文本tokens。DeepSeek-OCR也是一个高度实用的模型,可大规模生产预训练数据,“未来,我们将进行数字-光学文本交错预训练、大海捞针测试等进一步评估,继续推动这一有前景的研究方向。”

据海外科技媒体分析,研究团队表示,在基准测试中,DeepSeek-OCR优于多个主流模型,且使用的视觉tokens数量少得多。此外,单张A100-40G GPU每天可生成超过20万页的训练数据,可为大型语言模型和视觉-语言模型的开发提供支持。

前网易副总裁、杭州研究院执行院长汪源发文表示,DeepSeek-OCR模型是一个专门能“读懂”图片里文字的AI模型。但厉害的地方不是简单“识字”,是采用了一种非常新颖的思路:把文字当成图片来处理和压缩。

汪源认为,可以把它想象成一个超级高效的“视觉压缩器”,传统的AI模型是直接“读”文本,但 DeepSeek-OCR 是先“看”文本的图像,然后把一页文档的图片信息高度压缩成很少的视觉tokens。DeepSeek-OCR的能力强在能把一篇1000字的文章,压缩成100个视觉tokens。在十倍的压缩下,识别准确率可以达到96.5%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名女主持人熹菲抗癌10年不幸去世,年仅37岁,去年曾许愿再活5年

知名女主持人熹菲抗癌10年不幸去世,年仅37岁,去年曾许愿再活5年

极目新闻
2026-05-03 07:37:27
奖金465万!吴宜泽夺冠赔率领先墨菲 放话:要像赵心童一样夺冠

奖金465万!吴宜泽夺冠赔率领先墨菲 放话:要像赵心童一样夺冠

风过乡
2026-05-03 07:21:16
梅西气炸了!遭逆转后直接回更衣室,迈阿密百场造131球夺3冠

梅西气炸了!遭逆转后直接回更衣室,迈阿密百场造131球夺3冠

奥拜尔
2026-05-03 09:36:45
最后一圈连超两台雅马哈,张雪回应“张雪机车”第3冠:我说牛,谁不服;车手德比斯:感谢车队打造了一台极具竞争力的好车

最后一圈连超两台雅马哈,张雪回应“张雪机车”第3冠:我说牛,谁不服;车手德比斯:感谢车队打造了一台极具竞争力的好车

极目新闻
2026-05-02 22:56:32
4死1伤!柳州一小区发生命案!嫌犯将不再追究刑责!警方仍在侦办中

4死1伤!柳州一小区发生命案!嫌犯将不再追究刑责!警方仍在侦办中

声情专递
2026-05-03 09:26:14
“司机到河南被塞30斤蒜薹”背后:有蒜农称请人抽一斤倒贴几毛钱,增种、气温偏高致供大于求

“司机到河南被塞30斤蒜薹”背后:有蒜农称请人抽一斤倒贴几毛钱,增种、气温偏高致供大于求

红星新闻
2026-05-02 21:40:16
美媒称伊朗不要求直接谈判前解除霍尔木兹海峡封锁

美媒称伊朗不要求直接谈判前解除霍尔木兹海峡封锁

极目新闻
2026-05-03 10:27:36
震惊!网传大学生生娃后女方跑路,网友:100000得一孙子,赚大了

震惊!网传大学生生娃后女方跑路,网友:100000得一孙子,赚大了

火山詩话
2026-05-03 07:46:48
人类尸臭为啥如此难闻?外国石棺咋阻止尸臭泄漏?教堂味道难闻吗

人类尸臭为啥如此难闻?外国石棺咋阻止尸臭泄漏?教堂味道难闻吗

向航说
2026-05-02 00:55:03
王楚钦轮休,中国男团1比3不敌韩国队,遭遇伦敦世乒赛首败

王楚钦轮休,中国男团1比3不敌韩国队,遭遇伦敦世乒赛首败

鲁中晨报
2026-05-03 09:05:10
李亚鹏香港慈善晚会请了30家公司,只获得336万元善款,王菲力挺

李亚鹏香港慈善晚会请了30家公司,只获得336万元善款,王菲力挺

椰黄娱乐
2026-05-02 12:22:54
美国警告立陶宛等国,背后什么情况?

美国警告立陶宛等国,背后什么情况?

新民周刊
2026-05-03 09:39:42
一夜之间大跳水!最低不到2折!网友直呼“2000多元凭空蒸发”

一夜之间大跳水!最低不到2折!网友直呼“2000多元凭空蒸发”

鲁中晨报
2026-05-03 08:34:29
希金斯:墨菲这届世锦赛就像神一样,意志力比拼里我关键黑球手软

希金斯:墨菲这届世锦赛就像神一样,意志力比拼里我关键黑球手软

杨华评论
2026-05-03 02:48:59
97年我对女老师说我喜欢她,她红着脸说:考上重点大学我就嫁给你

97年我对女老师说我喜欢她,她红着脸说:考上重点大学我就嫁给你

千秋文化
2026-05-02 19:36:54
说一只熊猫有残疾,就要被报警、还要炒鱿鱼吗?

说一只熊猫有残疾,就要被报警、还要炒鱿鱼吗?

熊太行
2026-05-02 15:21:23
向大帝致敬!膝盖反关节+处理手术伤口+大腿抽筋:一瘸一拐飞扑球

向大帝致敬!膝盖反关节+处理手术伤口+大腿抽筋:一瘸一拐飞扑球

颜小白的篮球梦
2026-05-03 10:19:37
张雪振臂高呼+连续爆粗口!两口干完大半杯啤酒 怒怼喷子:谁不服

张雪振臂高呼+连续爆粗口!两口干完大半杯啤酒 怒怼喷子:谁不服

风过乡
2026-05-03 00:00:23
请大家做好准备:地方因为缺钱,正在发生很明显的变化

请大家做好准备:地方因为缺钱,正在发生很明显的变化

财经保探长
2026-05-02 21:23:41
瓦伦丁赛后采访炸了!早上还说车不行,晚上就拿了冠军

瓦伦丁赛后采访炸了!早上还说车不行,晚上就拿了冠军

小娱乐悠悠
2026-05-03 06:28:48
2026-05-03 11:08:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
893678文章数 5090641关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

数码
房产
时尚
公开课
军事航空

数码要闻

彻底没了!苹果官网下架256GB版Mac mini,起售价变更为5999元

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版