网易首页 > 网易号 > 正文 申请入驻

【观点】从IBM沃森的失败谈数据质量在医疗人工智能的重要性

0
分享至

摘要

如果使用电子化病案为人工智能应用提供数据支持的话,那么了解其中数据的质量以及如何使用人工智能算法来适应数据质量问题将变得很重要。本文通过分析IBM沃森失败的案例提出如何有效处理AI中的大数据质量与算法训练问题的解决思路,分享数据治理技术观点与应用。

【关键词】人工智能,数据质量,数据治理

前言

众所周知,沃森是当下诸多人工智能技术和应用的典型代表,其重点领域是医疗(主攻癌症的预测与治疗)。在电子病历普及带来大数据的背景下,Watson健康部门和多家机构合作,期望Watson通过整合和分析医疗数据,为医生提供治疗建议等。由于主要定位在癌症的预测与治疗这个人类目前最难攻克的领域,所以沃森自面世以来便颇为引人关注。但七年过去了,沃森健康从火爆登场到饱受质疑,甚至在2018年年初,作为IBM沃森的最大客户,MD安德森癌症中心被曝出,由于投入6200万美元仍未达成目标,终止了与IBM沃森的合作。此次合作的破裂,甚至被认为这是人工智能在医疗领域的倒退。

人工智能的工作原理

人工智能系统需要基于数据调整参数,以达到最佳拟合效果,由于数据的复杂性和相对不可用性,人工智能的效用往往存在不确定性。同样对IBM沃森而言,当Watson获得足够多的‘条理清楚’的数据时,能通过不断学习给出可能有用的答案。但在实际操作中,一方面Watson使用的训练数据并不丰富,例如,训练肺癌治疗方案的数据仅有635例,其它疾病更是少得可怜。另一方面,由于患者就医记录没有全部联网,医生经验录入成为沃森分析最核心的来源,这意味着当它扫描大量文件时,必然要识别复杂的信息并从中抽取关键内容。例如,患者的病历可能包含医生的大量注释,这些注释又是由简写和短语构成的,机器想完全理解它们并非易事。

总结IBM沃森失败的原因,其算法算力毋庸置疑,而在数据处理上,除了收集的样本数据量不足,最大的问题便是在数据质量不高,几十万份病例下来,能够用的可能才几万份病例。这一切导致了沃森不能提供足够的敏感性、特异性和精准性,而这都是临床决策所必需的。那么,如何保障数据质量,使其真正服务于人工智能,推动智慧医疗呢?

如何有效处理AI中的大数据质量与算法训练问题

(1)了解数据的质量

对数据的了解包括对其业务信息、设计信息的理解,有很多维度需要考虑,这个环节很重要却往往容易被忽略。通常情况下,企业需要结合业务规则去做数据的剖析,假如拥有非常完整的数据质量指标体系及评估体系,将有助于获得一个非常清晰的360度数据画像,这对了解数据至关重要。数据的优劣有多个关键的评估维度,这些评估维度都将通过业务规则,包括ABR(属性业务股则),EBR(实体业务规则)以及SBR(企业特定的业务规则),这三种业务规则基于不同权重去做的合规打分,形成量化的评估指标,最终得出数据质量的总评分。我们需要有这样一个量化机制来告诉企业这些数据质量好还是不好,有多好,具体表现在哪些方面不好,而权重则取决于这些不好的数据质量因素对企业影响有多大。

数据质量评估维度

数据质量评分KPI

(2)调动多种数据治理技术管理数据质量

发现了数据问题,接下来的关键动作就是落实全局的数据治理。而数据治理并不是单一的系统操作,往往涵盖元数据管理、数据质量、数据剖析等多种技术的相互协作,共同作用于企业数据治理水平的提升。以一个具体场景为例,在医院,保险公司和医院的理赔数据永远对不上,因为在计算方法上,医院方以8点钟入院就算一天理赔,但保险公司是按照9点钟以后入院才算一天,每个部门都说自己的数据是最对的,但这个数据却永远对不上。从这个天数一致性问题反推,通常需要用到数据治理的范围里面的相关技术,比如说用元数据管理精准定义数据,确保数据内容的一致性;还要用到数据剖析来检查多源数据的一致性,及时发现那些违规的、不符合规则定义的数据;而第三层技术,包括规则库的引擎以及行业规则库的应用,通常是确保业务理解的一致性,比如说病患在医院里面做出院数据检查的时候,如果医院的规则库里面已经定好了R点入院时间是一天,怎么调用这些规则并把它激活?这就要求医院在数据发现层面就能够联动业务规则来找到标准并筛查不合规质量不高的数据。综上所述,可以看到数据质量并不是单一的概念,它需要多层次技术共同作用去实现的。

华矩数据治理平台

(3)基于业务规则优化的数据治理发展体系

通常情况下,每一家企业开始都有专家协助建立用户规则,但是这个规则足以让你的数据良性走下去吗?我们还需要一个自动化的学习技术,这是一个循环过程。也就是说,我们在这一套体系里面怎么通过scan去发现data lake的数据问题,并发掘新的规则或者是调整规则,不断丰满我们的规则库,通过完善的规则库让这个循环变成良性的发展体系,这是一个数据治理逐步发展的过程。

基于业务规则优化的数据治理发展体系

(4)数据治理与风控AI模型的结合

回到人工智能,以下是基于最典型的风控模型建立的一个数据治理体系。风控肯定离不开校验的问题,风控管理的人工智能算法就是通过三层循环来实现自我学习的过程,而这个过程数据的质量至关重要,决定了整个模型的效果,如果没有优质的数据,人工智能也就只能形同虚设,无法真正发挥其效用。

结语

本文通过分析IBM沃森的失败原因为人工智能市场敲响警钟:如果使用电子化病案为人工智能应用提供数据支持的话,那么了解其中数据的质量以及如何使用人工智能算法来适应数据质量问题将变得很重要。医疗领域,历经长期信息系统标准不统一,数据质量参差不齐,临床术语开发无法跟进,健康数据碎片化、非结构化等因素困扰,越过数据质量谈人工智能确实有点天方夜谭,扎实做好数据治理基本功,保障数据质量才是医疗人工智能的唯一出路。华矩科技结合当前人工智能的发展瓶颈以及医疗大数据的应用场景,提出如何有效处理AI中的大数据质量与算法训练问题的解决思路,分享数据治理技术观点与应用。作为国内领先的数据治理技术与服务提供商,华矩数据治理包括元数据管理、数据质量剖析诊断、数据优化补全、业务规则库创建、数据质量持续监管、数据集成、数据存储、数据可视化分析等专业有效的数据处理服务与产品技术方案,服务行业涵盖电力业、金融业、医疗业、制造业等,已帮助多数500强企业全方位处理数据问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特斯拉新车曝光:无方向盘、无踏板、无后视镜

特斯拉新车曝光:无方向盘、无踏板、无后视镜

澎湃新闻
2026-02-21 02:12:18
1980年,宋庆龄对要结婚的养女隋永清说:如果他敢打你,马上离婚

1980年,宋庆龄对要结婚的养女隋永清说:如果他敢打你,马上离婚

大运河时空
2026-02-20 14:55:03
湛江妈祖事件真相!当地村民称不是抬不动轿子,而是根本不敢走啊

湛江妈祖事件真相!当地村民称不是抬不动轿子,而是根本不敢走啊

火山詩话
2026-02-21 14:13:36
贝加尔湖事故遇难者遗体已被发现,涉事司机为44岁当地男子,系私下接单;获救者是来自江苏省的一位男性

贝加尔湖事故遇难者遗体已被发现,涉事司机为44岁当地男子,系私下接单;获救者是来自江苏省的一位男性

都市快报橙柿互动
2026-02-21 00:08:59
震惊!小妈祖高兴时的样貌,才知被妈祖选中的孩子,果然与众不同

震惊!小妈祖高兴时的样貌,才知被妈祖选中的孩子,果然与众不同

火山詩话
2026-02-20 08:24:21
贝加尔湖7名遇难中国游客遗体已被发现,目击者:唯一幸存者在沉湖前最后一刻打开车门;司机为当地44岁男子,或涉违规私下接单

贝加尔湖7名遇难中国游客遗体已被发现,目击者:唯一幸存者在沉湖前最后一刻打开车门;司机为当地44岁男子,或涉违规私下接单

每日经济新闻
2026-02-21 12:38:14
63岁阿姨说:和再婚老伴同居后才懂得,男人老了还要找老伴的原因

63岁阿姨说:和再婚老伴同居后才懂得,男人老了还要找老伴的原因

烙任情感
2026-02-20 11:04:02
男子打麻将连续自摸胡牌后突然瘫倒在牌桌前!送医时血压飙到201/115mmHg

男子打麻将连续自摸胡牌后突然瘫倒在牌桌前!送医时血压飙到201/115mmHg

闪电新闻
2026-02-20 22:54:48
湛江妈祖事件升级!小妈祖直播报平安,一句“我很好”看哭不少人

湛江妈祖事件升级!小妈祖直播报平安,一句“我很好”看哭不少人

火山詩话
2026-02-21 06:44:08
Coco说她很怀念在香港的日子,很怀念和谢贤在一起的12年

Coco说她很怀念在香港的日子,很怀念和谢贤在一起的12年

西楼知趣杂谈
2026-02-19 21:09:49
彻底清醒了?郭台铭带回46台光刻机,300亿,霸气喊话:全包华为芯片

彻底清醒了?郭台铭带回46台光刻机,300亿,霸气喊话:全包华为芯片

科技虎虎
2026-02-21 12:16:56
2月21日冬奥会看点:金牌伉俪携手再冲冠,谷爱凌迎卫冕之战

2月21日冬奥会看点:金牌伉俪携手再冲冠,谷爱凌迎卫冕之战

全景体育V
2026-02-21 07:15:18
湛江妈祖事件到发生了什么?后续女孩回应来了,福建老板集体拉黑

湛江妈祖事件到发生了什么?后续女孩回应来了,福建老板集体拉黑

社会日日鲜
2026-02-21 06:56:42
俄乌打了4年,西方终于发现情况不妙:俄军弹药怎么打不完?

俄乌打了4年,西方终于发现情况不妙:俄军弹药怎么打不完?

空天力量
2026-02-21 13:06:08
湛江妈祖事件曝光!网传今年换人请9次圣杯,全是反对,资本慌了

湛江妈祖事件曝光!网传今年换人请9次圣杯,全是反对,资本慌了

火山詩话
2026-02-20 08:52:55
“这是输了?”得知关税被判违法,特朗普暴怒 在场州长:感觉他头都气炸了

“这是输了?”得知关税被判违法,特朗普暴怒 在场州长:感觉他头都气炸了

红星新闻
2026-02-21 12:42:33
48岁欧阳夏丹父母双亡独自过年,一个人吃7道菜,大口吃饭不矫情

48岁欧阳夏丹父母双亡独自过年,一个人吃7道菜,大口吃饭不矫情

离离言几许
2026-02-20 23:38:28
河北女婿到江西过年,大年初三吃泡面!满眼看去桌上全是辣菜,妻子:他说江西菜吃腻了

河北女婿到江西过年,大年初三吃泡面!满眼看去桌上全是辣菜,妻子:他说江西菜吃腻了

极目新闻
2026-02-20 17:01:59
柬埔寨向26国通报:驱逐涉案外籍人员8000余名 超21万名外籍人员自行离境 已对包括陈志犯罪集团在内的500余起犯罪案件起诉

柬埔寨向26国通报:驱逐涉案外籍人员8000余名 超21万名外籍人员自行离境 已对包括陈志犯罪集团在内的500余起犯罪案件起诉

每日经济新闻
2026-02-21 11:46:14
42死300伤!北海道暴雪困住中国游客,有人喊话:祖国包机来接人

42死300伤!北海道暴雪困住中国游客,有人喊话:祖国包机来接人

青眼财经
2026-02-20 23:31:25
2026-02-21 16:23:00
华矩科技
华矩科技
领先数据治理技术与服务提供商
33文章数 0关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

在贝加尔湖遇难的3名中国游客身份已确认:系一家人

头条要闻

在贝加尔湖遇难的3名中国游客身份已确认:系一家人

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

本地
游戏
教育
时尚
公开课

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

2026秋季3A大作扎堆!《影之刃零》独挑"各大门派"

教育要闻

新春走基层 | 慢飞天使捏出 “年的形状”

2026纽约秋冬时装周,在春天开启美的新故事!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版