云知声U1-OCR迭代发布，多行业场景实现精准解析升级|ocr|大模型

云知声U1-OCR迭代发布，多行业场景实现精准解析升级

2026-04-23 09:10:55　来源: 商叶观察角

河北举报

分享至

2026年4月，云知声智能科技股份有限公司（以下称“云知声”）宣布其工业级文档智能基础大模型UnisoundU1-OCR完成能力迭代，全新系列模型正式推出。该模型同步全量上线云知声TokenHub大模型服务平台，开放标准化API接口，采用Token计费模式，大幅降低企业接入成本与部署门槛，进一步推动文档智能技术在金融、医疗、教育、交通等行业的规模化落地，正式开启OCR3.0时代。

技术架构革新，权威认证加持

U1-OCR系列模型实现架构范式升级，抛弃传统非极大值抑制（NMS）方案，采用统一结构精修技术解决级联误差问题，在复杂版面解析能力上实现质的飞跃。传统NMS仅能对重叠候选框去重，难以保留定位更准、覆盖更全的区域，而新架构可精准判定区域边界、区分内容类别并恢复整体结构，从根源上避免内容重复、顺序错乱等问题。

技术实力获全球权威验证，核心论文入选ACL2026顶级会议，并在OmniDocBench与D4LA两大权威数据集上登顶。在OmniDocBench数据集上，U1-OCR以96.23的F1分数领先PP-DocLayoutV3、MinerU2.5等主流模型；在D4LA数据集上，以93.93的F1分数位居榜首，充分展示其跨数据集泛化能力与结构理解实力。

全场景适配，服务能力全面开放

U1-OCR系列模型实现行业全场景覆盖，可高效处理金融合同、医疗病历、教育教材、交通报表等各类复杂文档，精准完成结构理解与阅读顺序恢复。无论是论文、研报等线性文档，还是农业报刊多栏排版、数独游戏高密度页面等特殊场景，模型均能准确识别标题、正文、图表、表格等元素关联，还原符合人类阅读习惯的内容顺序，彻底解决传统OCR“只读文字、不懂排版”的行业痛点。

云知声还构建了以“山海”大模型矩阵为核心的技术生态，U1-OCR作为文档智能核心底座，与医疗、语音等领域模型协同进化，形成完整技术闭环。此次标准化API的开放，进一步降低技术使用门槛，让更多企业低成本享受到OCR3.0时代的文档智能红利，助力各行业加速数字化转型进程。

未来，云知声将持续迭代模型能力，拓展更多行业场景应用，推动文档智能技术向更深层次、更广范围渗透，为千行百业智能化升级注入核心动力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.