网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

万份医疗“天书”AI秒读懂，头部大模型厂商这样做语料训练！

2025-07-01 10:00:03　来源: 数智化解决方案

上海举报

0

分享至

2025年是AI应用爆发之年，各大厂商纷纷推出新升级产品，赋能千行百业。

作为头部的通用大模型公司之一，该企业已将服务范围从C端的提供大模型问答服务延伸到了B端企业服务领域，为专业场景下的行业用户提供基座大模型API。该公司期望通过语言AI的突破，为企业大众普惠地获取世界知识和专业服务。

然而在构建医疗行业垂直的大模型问答产品时，该公司也遇到了不少挑战：

用户累计上传的百万页医疗文档中，涵盖200+种变化版式，大模型识别错误率极高，用户狂吐槽；传统OCR将表格胡乱拆解，段落逻辑混乱；CT报告中“1.5mm结节”错误识别为“15mm”，导致模型理解错误，推理偏差严重，误导用户。

以上场景足以证明一个标点符号的解析错位，能够让整个AI诊断链结论“谬以千里”。

而现在，这一切正在被一套全新的AI文档解析系统悄然改变。

该大模型企业率先将TextIn文档解析引入文档问答前置工作流，提升模型训练效率和大模型问答准确性。

01 从人工标注进化至语义解析给大模型装上“最强大脑”

医疗大模型是基于海量医疗数据的训练和其强大的深度思考能力，为医疗行业提供智能诊断和临床决策支持。

对于这类对大模型输出结论要求非常严谨的行业，一个符号的解析失误都会“误导”大模型，造成无法挽回的后果。

然而用户上传的医疗材料种类万千，检测单、CT片、住院发票形态各异，对于大模型理解来说是一项挑战。

造成大模型理解困难的原因是这些文档涵盖了大量的非结构化数据，包括跨行合并、嵌套表格、带注释的复杂表格，手写、公式、印章这类传统OCR难以处理的信息元素。

如何高效准确地提取各类文档中的文本信息，并转换成大模型能理解的文档格式，是提升大模型问答准确率的关键。

该企业在应用TextIn文档解析后，可使其大模型产品精准识别上千种文档中的跨页表格、合并单元格、密集表格、手写字符及公式，解析稳定率达99.99%。

对于有线无线表格、列表、公式、手写体等都能全部精准识别并结构化输出，识别准确率超95%，赋能后链路的大模型理解和推理。

02 降低重复信息误导智能滤出核心信息

“大模型训练流程中，数据清洗是确保原始文本转化为高质量模型输入的关键预处理步骤。”该厂商的数据工程负责人说道。

数据清洗可以过滤非文本“噪声”如水印、印章、涂鸦等等，将混乱的版面结构还原成公正的形态，保证文本处于大模型最好理解的输入状态。

同时，数据清洗承担了去重的工作，可以将文档内重复的内容和相似的段落合并，避免大模型对重复内容的过度关注。

然而这一关键步骤常常会被忽视，通过堆砌人力，完成数据提纯。

过去对于繁杂的医疗表格，该企业需要人工标注清洗，才能推进到数据训练阶段，这段过程往往需要花费45分钟，还有人工疏忽导致的错误风险。

如今在应用TextIn文档解析后，该企业的医疗单据解析平均耗时降至个位数分钟级别；输出的JSON格式可以很好的匹配企业训练框架，形成理想的数据流通管道。

从过去的人工标注入库到现在的自动化处理，从过去的模型幻觉到当前的大模型问答有迹可循。这家大模型厂商的实践让我们看到，文档解析作为文档处理的第一步，不仅提升了效率，更为同行业和其他传统企业的智能化升级，提供了一个可以借鉴的样本。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

媒体：欧洲热浪下中国空调撕开的不只是市场缺口

澎湃新闻 2026-06-30 07:12:58
10879 跟贴 10879
巴西队胜利"属于"安切洛蒂其赛前精准预测比赛进程

上观新闻 2026-06-30 03:28:50
6417 跟贴 6417

一天两场点球大战荷兰点球大战3-4摩洛哥无缘16强

央视新闻客户端 2026-06-30 11:56:09
4492 跟贴 4492

大蒜晒外面被路过女子连盆端走

潇湘晨报 2026-06-30 09:39:11
73 跟贴 73
开了一次就“头晕”？看到机器上的英文单词，他觉得自己被骂了

北青网-北京青年报 2026-06-28 14:48:24
1827 跟贴 1827

上海老夫妻无后代临走前捐出500万:我们活不了多久了

澎湃新闻 2026-06-30 07:00:31
1577 跟贴 1577

韩红即日起将退出公益行业？韩红基金会回应传闻：目前没有收到任何消息

北京青年报 2026-06-30 13:43:20
9368 跟贴 9368
江苏将新建一座超大型机场，明年正式开工

江苏新闻 2026-06-30 13:32:00
106 跟贴 106

当地华人讲述法国高温：中国空调一机难求，有人为抢购空调打起来，安装已排到9月

潇湘晨报 2026-06-29 21:36:19
5307 跟贴 5307
“卡牌大师”名不虚传，作为第四官员的马宁多次提醒主裁，让德国和巴拉圭两队替补席吃黄牌；网友：就算手里没牌，照样能管住赛场秩序

厦门晚报 2026-06-30 11:41:58
825 跟贴 825
媒体:德国连续3届世界杯无缘16强从战车变成宝宝巴士

中国新闻周刊 2026-06-30 13:02:57
526 跟贴 526
贵阳一小区160户居民出行仅剩一部电梯，多数业主还拒绝动用基金维修损坏电梯，出行困境如何破解？

大风新闻 2026-06-30 10:12:02
189 跟贴 189
“博士生邀餐馆老板合拍毕业照”最新合影来了！老板娘：奔赴真诚的相遇，让我感受到人间真实的美好

极目新闻 2026-06-30 18:29:52
66 跟贴 66
中国县城居民人均收入10强：义乌超过北上广深

第一财经 2026-06-30 07:36:04
54 跟贴 54
未来5年孩子上学有这些大变化！

新京报 2026-06-30 13:18:09
420 跟贴 420
藤森庆子，赢得秘鲁总统选举

政知新媒体 2026-06-30 08:53:51
223 跟贴 223
国泰海通总裁李俊杰，将任上海市级机关正职

南方都市报 2026-06-30 19:04:17
4 跟贴 4
小组赛闯出的“黑马”，还能“黑”多远

澎湃新闻 2026-06-30 14:34:11
52 跟贴 52
毕业典礼院长带研究生共舞视频走红

潇湘晨报 2026-06-30 14:48:14
32 跟贴 32
“绵阳考生高考估分715查分299”系谣言（2026·06·30）

今日辟谣 2026-06-30 19:00:09
0 跟贴 0
单月用水301吨？上海一户人家未入住先欠2000多水费,高温天要停水

新浪财经 2026-06-30 20:39:48
0 跟贴 0
灭火器已过期半年！每月纸面巡检却记录齐全？物业回应

8099999街头巷尾 2026-06-30 20:38:08
0 跟贴 0

世界杯淘汰赛预测：法国3-1瑞典，挪威2-1科特迪瓦，墨西哥1-1

世界杯淘汰赛预测：法国3-1瑞典，挪威2-1科特迪瓦，墨西哥1-1

慢歌轻步谣

2026-06-30 12:45:55

《生活大爆炸》演员们如今都当爸妈了！佩妮二胎、莱纳德儿女双全

《生活大爆炸》演员们如今都当爸妈了！佩妮二胎、莱纳德儿女双全

粉红冻奶的观影日记

2026-06-30 15:40:42

佩斯科夫表示俄罗斯可能从其他国家进口石油制品，此前普京称考虑全面禁止柴油出口，要将俄基础设施遭袭的后果降至最低

佩斯科夫表示俄罗斯可能从其他国家进口石油制品，此前普京称考虑全面禁止柴油出口，要将俄基础设施遭袭的后果降至最低

鲁中晨报

2026-06-30 19:50:04

4次助攻第1！巴西28岁中场大师崛起：追平济科，辅佐维尼修斯冲冠

4次助攻第1！巴西28岁中场大师崛起：追平济科，辅佐维尼修斯冲冠

李喜林篮球绝杀

2026-06-30 11:52:23

世界杯头号罪人！曼联水货彻底现形，全场隐身差点坑死巴西！

世界杯头号罪人！曼联水货彻底现形，全场隐身差点坑死巴西！

奶盖熊本熊

2026-06-30 03:27:12

女演员千万别整容，看45岁马苏和40岁江疏影同框，就懂两人的区别

女演员千万别整容，看45岁马苏和40岁江疏影同框，就懂两人的区别

白面书誏

2026-06-29 14:44:15

开拓者队记：罗威预计不会留队他将寻求1500万年薪合同

开拓者队记：罗威预计不会留队他将寻求1500万年薪合同

北青网-北京青年报

2026-06-30 19:30:34

女单32强全部落位，中日各占七席，种子爆冷陈熠遗憾

女单32强全部落位，中日各占七席，种子爆冷陈熠遗憾

小哆说体育

2026-06-30 13:06:16

她是著名歌唱家，与著名大导演离婚，带儿子嫁高官，如今定居北京

她是著名歌唱家，与著名大导演离婚，带儿子嫁高官，如今定居北京

嘴角上翘的弧度

2026-06-29 20:36:25

属猴：“你真了不起！”7月1日开始，万年一遇双“四喜”排队敲门

属猴：“你真了不起！”7月1日开始，万年一遇双“四喜”排队敲门

阿天爱旅行

2026-06-30 01:17:22

机器人概念大爆发！300270，688286，688328，300545，20%涨停！

机器人概念大爆发！300270，688286，688328，300545，20%涨停！

证券时报e公司

2026-06-30 13:23:19

范德法特谈荷兰出局：这是我见过德容发挥最糟糕的一场比赛

范德法特谈荷兰出局：这是我见过德容发挥最糟糕的一场比赛

懂球帝

2026-06-30 12:36:27

2003年，河南老农钓到一只乌龟，背上插4支箭，专家估值超过18亿

2003年，河南老农钓到一只乌龟，背上插4支箭，专家估值超过18亿

万象硬核本尊

2026-06-29 14:24:37

中国出手助菲亲华派绝地翻盘，菲防长17天后送狠话

中国出手助菲亲华派绝地翻盘，菲防长17天后送狠话

小豹子找食物

2026-06-29 14:59:35

高市早苗支持率68%对32%遥遥领先，创下纪录领跑日本政坛！

高市早苗支持率68%对32%遥遥领先，创下纪录领跑日本政坛！

让心灵得以栖息

2026-06-29 17:37:32

哪些地方婚礼陋习让你很无语？网友：恶俗的习俗，每次看到都想吐

哪些地方婚礼陋习让你很无语？网友：恶俗的习俗，每次看到都想吐

解读热点事件

2026-06-24 22:18:30

家底藏不住了！球球自曝家里6个保姆，赵本山的规矩令人意外

家底藏不住了！球球自曝家里6个保姆，赵本山的规矩令人意外

观察者海风

2026-06-30 20:05:28

“余生好好走”，知名央视主持人王小丫，病床上的留言字字催泪

“余生好好走”，知名央视主持人王小丫，病床上的留言字字催泪

近史谈

2026-03-31 18:57:49

突发！湖人将在明天与杜伦会面，但签了他就留不住詹姆斯

突发！湖人将在明天与杜伦会面，但签了他就留不住詹姆斯

奕辰说球

2026-06-30 16:22:02

保姆生下孩子，坚称孩子是60岁父亲的，亲子鉴定后，父亲当场气死

保姆生下孩子，坚称孩子是60岁父亲的，亲子鉴定后，父亲当场气死

不易一字

2025-03-19 17:49:40

数智化解决方案

分享大数据+AI相关前沿方案

164文章数 0关注度

往期回顾全部

科技要闻

iPhone18 Pro遭泄密！印度代工商惹祸

头条要闻

日本队世界杯出局后韩媒来劲了

头条要闻

日本队世界杯出局后韩媒来劲了

体育要闻

大热倒灶压力给到法国王楚揭法国队隐患

娱乐要闻

韩红称要退出公益，多位名人挽留

财经要闻

万亿“寒王”，历史时刻

汽车要闻

奇瑞风云A9探店五个理由一定来看看

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

房产

健康

时尚

艺术

教育要闻

快讯！2026黄石中考分数线公布！

房产要闻

等了三年！改善顶流实景交付，海口标杆的的答卷来了！

狂吃“糯叽叽”小心肠梗阻！

“复古波点”又流行回来了！夏天简单穿就很时髦

艺术要闻

明代书坛的超级天才，仅用数年超越文徵明，随便一字被文人雅士视为至宝！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版