2025年是AI应用爆发之年,各大厂商纷纷推出新升级产品,赋能千行百业。
作为头部的通用大模型公司之一,该企业已将服务范围从C端的提供大模型问答服务延伸到了B端企业服务领域,为专业场景下的行业用户提供基座大模型API。该公司期望通过语言AI的突破,为企业大众普惠地获取世界知识和专业服务。
然而在构建医疗行业垂直的大模型问答产品时,该公司也遇到了不少挑战:
用户累计上传的百万页医疗文档中,涵盖200+种变化版式,大模型识别错误率极高,用户狂吐槽;传统OCR将表格胡乱拆解,段落逻辑混乱;CT报告中“1.5mm结节”错误识别为“15mm”,导致模型理解错误,推理偏差严重,误导用户。
以上场景足以证明一个标点符号的解析错位,能够让整个AI诊断链结论“谬以千里”。
而现在,这一切正在被一套全新的AI文档解析系统悄然改变。
该大模型企业率先将TextIn文档解析引入文档问答前置工作流,提升模型训练效率和大模型问答准确性。
01 从人工标注进化至语义解析 给大模型装上“最强大脑”
医疗大模型是基于海量医疗数据的训练和其强大的深度思考能力,为医疗行业提供智能诊断和临床决策支持。
对于这类对大模型输出结论要求非常严谨的行业,一个符号的解析失误都会“误导”大模型,造成无法挽回的后果。
然而用户上传的医疗材料种类万千,检测单、CT片、住院发票形态各异,对于大模型理解来说是一项挑战。
造成大模型理解困难的原因是这些文档涵盖了大量的非结构化数据,包括跨行合并、嵌套表格、带注释的复杂表格,手写、公式、印章这类传统OCR难以处理的信息元素。
如何高效准确地提取各类文档中的文本信息,并转换成大模型能理解的文档格式,是提升大模型问答准确率的关键。
该企业在应用TextIn文档解析后,可使其大模型产品精准识别上千种文档中的跨页表格、合并单元格、密集表格、手写字符及公式,解析稳定率达99.99%。
对于有线无线表格、列表、公式、手写体等都能全部精准识别并结构化输出,识别准确率超95%,赋能后链路的大模型理解和推理。
02 降低重复信息误导 智能滤出核心信息
“大模型训练流程中,数据清洗是确保原始文本转化为高质量模型输入的关键预处理步骤。”该厂商的数据工程负责人说道。
数据清洗可以过滤非文本“噪声”如水印、印章、涂鸦等等,将混乱的版面结构还原成公正的形态,保证文本处于大模型最好理解的输入状态。
同时,数据清洗承担了去重的工作,可以将文档内重复的内容和相似的段落合并,避免大模型对重复内容的过度关注。
然而这一关键步骤常常会被忽视,通过堆砌人力,完成数据提纯。
过去对于繁杂的医疗表格,该企业需要人工标注清洗,才能推进到数据训练阶段,这段过程往往需要花费45分钟,还有人工疏忽导致的错误风险。
如今在应用TextIn文档解析后,该企业的医疗单据解析平均耗时降至个位数分钟级别;输出的JSON格式可以很好的匹配企业训练框架,形成理想的数据流通管道。
从过去的人工标注入库到现在的自动化处理,从过去的模型幻觉到当前的大模型问答有迹可循。这家大模型厂商的实践让我们看到,文档解析作为文档处理的第一步,不仅提升了效率,更为同行业和其他传统企业的智能化升级,提供了一个可以借鉴的样本。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.