2026年4月,云知声智能科技股份有限公司(以下称“云知声”)宣布其工业级文档智能基础大模型UnisoundU1-OCR完成能力迭代,全新系列模型正式推出。该模型同步全量上线云知声TokenHub大模型服务平台,开放标准化API接口,采用Token计费模式,大幅降低企业接入成本与部署门槛,进一步推动文档智能技术在金融、医疗、教育、交通等行业的规模化落地,正式开启OCR3.0时代。
![]()
技术架构革新,权威认证加持
U1-OCR系列模型实现架构范式升级,抛弃传统非极大值抑制(NMS)方案,采用统一结构精修技术解决级联误差问题,在复杂版面解析能力上实现质的飞跃。传统NMS仅能对重叠候选框去重,难以保留定位更准、覆盖更全的区域,而新架构可精准判定区域边界、区分内容类别并恢复整体结构,从根源上避免内容重复、顺序错乱等问题。
技术实力获全球权威验证,核心论文入选ACL2026顶级会议,并在OmniDocBench与D4LA两大权威数据集上登顶。在OmniDocBench数据集上,U1-OCR以96.23的F1分数领先PP-DocLayoutV3、MinerU2.5等主流模型;在D4LA数据集上,以93.93的F1分数位居榜首,充分展示其跨数据集泛化能力与结构理解实力。
![]()
全场景适配,服务能力全面开放
U1-OCR系列模型实现行业全场景覆盖,可高效处理金融合同、医疗病历、教育教材、交通报表等各类复杂文档,精准完成结构理解与阅读顺序恢复。无论是论文、研报等线性文档,还是农业报刊多栏排版、数独游戏高密度页面等特殊场景,模型均能准确识别标题、正文、图表、表格等元素关联,还原符合人类阅读习惯的内容顺序,彻底解决传统OCR“只读文字、不懂排版”的行业痛点。
云知声还构建了以“山海”大模型矩阵为核心的技术生态,U1-OCR作为文档智能核心底座,与医疗、语音等领域模型协同进化,形成完整技术闭环。此次标准化API的开放,进一步降低技术使用门槛,让更多企业低成本享受到OCR3.0时代的文档智能红利,助力各行业加速数字化转型进程。
未来,云知声将持续迭代模型能力,拓展更多行业场景应用,推动文档智能技术向更深层次、更广范围渗透,为千行百业智能化升级注入核心动力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.