网易首页 > 网易号 > 正文 申请入驻

【观点】从IBM沃森的失败谈数据质量在医疗人工智能的重要性

0
分享至

摘要

如果使用电子化病案为人工智能应用提供数据支持的话,那么了解其中数据的质量以及如何使用人工智能算法来适应数据质量问题将变得很重要。本文通过分析IBM沃森失败的案例提出如何有效处理AI中的大数据质量与算法训练问题的解决思路,分享数据治理技术观点与应用。

【关键词】人工智能,数据质量,数据治理

前言

众所周知,沃森是当下诸多人工智能技术和应用的典型代表,其重点领域是医疗(主攻癌症的预测与治疗)。在电子病历普及带来大数据的背景下,Watson健康部门和多家机构合作,期望Watson通过整合和分析医疗数据,为医生提供治疗建议等。由于主要定位在癌症的预测与治疗这个人类目前最难攻克的领域,所以沃森自面世以来便颇为引人关注。但七年过去了,沃森健康从火爆登场到饱受质疑,甚至在2018年年初,作为IBM沃森的最大客户,MD安德森癌症中心被曝出,由于投入6200万美元仍未达成目标,终止了与IBM沃森的合作。此次合作的破裂,甚至被认为这是人工智能在医疗领域的倒退。

人工智能的工作原理

人工智能系统需要基于数据调整参数,以达到最佳拟合效果,由于数据的复杂性和相对不可用性,人工智能的效用往往存在不确定性。同样对IBM沃森而言,当Watson获得足够多的‘条理清楚’的数据时,能通过不断学习给出可能有用的答案。但在实际操作中,一方面Watson使用的训练数据并不丰富,例如,训练肺癌治疗方案的数据仅有635例,其它疾病更是少得可怜。另一方面,由于患者就医记录没有全部联网,医生经验录入成为沃森分析最核心的来源,这意味着当它扫描大量文件时,必然要识别复杂的信息并从中抽取关键内容。例如,患者的病历可能包含医生的大量注释,这些注释又是由简写和短语构成的,机器想完全理解它们并非易事。

总结IBM沃森失败的原因,其算法算力毋庸置疑,而在数据处理上,除了收集的样本数据量不足,最大的问题便是在数据质量不高,几十万份病例下来,能够用的可能才几万份病例。这一切导致了沃森不能提供足够的敏感性、特异性和精准性,而这都是临床决策所必需的。那么,如何保障数据质量,使其真正服务于人工智能,推动智慧医疗呢?

如何有效处理AI中的大数据质量与算法训练问题

(1)了解数据的质量

对数据的了解包括对其业务信息、设计信息的理解,有很多维度需要考虑,这个环节很重要却往往容易被忽略。通常情况下,企业需要结合业务规则去做数据的剖析,假如拥有非常完整的数据质量指标体系及评估体系,将有助于获得一个非常清晰的360度数据画像,这对了解数据至关重要。数据的优劣有多个关键的评估维度,这些评估维度都将通过业务规则,包括ABR(属性业务股则),EBR(实体业务规则)以及SBR(企业特定的业务规则),这三种业务规则基于不同权重去做的合规打分,形成量化的评估指标,最终得出数据质量的总评分。我们需要有这样一个量化机制来告诉企业这些数据质量好还是不好,有多好,具体表现在哪些方面不好,而权重则取决于这些不好的数据质量因素对企业影响有多大。

数据质量评估维度

数据质量评分KPI

(2)调动多种数据治理技术管理数据质量

发现了数据问题,接下来的关键动作就是落实全局的数据治理。而数据治理并不是单一的系统操作,往往涵盖元数据管理、数据质量、数据剖析等多种技术的相互协作,共同作用于企业数据治理水平的提升。以一个具体场景为例,在医院,保险公司和医院的理赔数据永远对不上,因为在计算方法上,医院方以8点钟入院就算一天理赔,但保险公司是按照9点钟以后入院才算一天,每个部门都说自己的数据是最对的,但这个数据却永远对不上。从这个天数一致性问题反推,通常需要用到数据治理的范围里面的相关技术,比如说用元数据管理精准定义数据,确保数据内容的一致性;还要用到数据剖析来检查多源数据的一致性,及时发现那些违规的、不符合规则定义的数据;而第三层技术,包括规则库的引擎以及行业规则库的应用,通常是确保业务理解的一致性,比如说病患在医院里面做出院数据检查的时候,如果医院的规则库里面已经定好了R点入院时间是一天,怎么调用这些规则并把它激活?这就要求医院在数据发现层面就能够联动业务规则来找到标准并筛查不合规质量不高的数据。综上所述,可以看到数据质量并不是单一的概念,它需要多层次技术共同作用去实现的。

华矩数据治理平台

(3)基于业务规则优化的数据治理发展体系

通常情况下,每一家企业开始都有专家协助建立用户规则,但是这个规则足以让你的数据良性走下去吗?我们还需要一个自动化的学习技术,这是一个循环过程。也就是说,我们在这一套体系里面怎么通过scan去发现data lake的数据问题,并发掘新的规则或者是调整规则,不断丰满我们的规则库,通过完善的规则库让这个循环变成良性的发展体系,这是一个数据治理逐步发展的过程。

基于业务规则优化的数据治理发展体系

(4)数据治理与风控AI模型的结合

回到人工智能,以下是基于最典型的风控模型建立的一个数据治理体系。风控肯定离不开校验的问题,风控管理的人工智能算法就是通过三层循环来实现自我学习的过程,而这个过程数据的质量至关重要,决定了整个模型的效果,如果没有优质的数据,人工智能也就只能形同虚设,无法真正发挥其效用。

结语

本文通过分析IBM沃森的失败原因为人工智能市场敲响警钟:如果使用电子化病案为人工智能应用提供数据支持的话,那么了解其中数据的质量以及如何使用人工智能算法来适应数据质量问题将变得很重要。医疗领域,历经长期信息系统标准不统一,数据质量参差不齐,临床术语开发无法跟进,健康数据碎片化、非结构化等因素困扰,越过数据质量谈人工智能确实有点天方夜谭,扎实做好数据治理基本功,保障数据质量才是医疗人工智能的唯一出路。华矩科技结合当前人工智能的发展瓶颈以及医疗大数据的应用场景,提出如何有效处理AI中的大数据质量与算法训练问题的解决思路,分享数据治理技术观点与应用。作为国内领先的数据治理技术与服务提供商,华矩数据治理包括元数据管理、数据质量剖析诊断、数据优化补全、业务规则库创建、数据质量持续监管、数据集成、数据存储、数据可视化分析等专业有效的数据处理服务与产品技术方案,服务行业涵盖电力业、金融业、医疗业、制造业等,已帮助多数500强企业全方位处理数据问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法网女单八强出炉!7位种子选手入围,淘汰郑钦文之人成最大黑马

法网女单八强出炉!7位种子选手入围,淘汰郑钦文之人成最大黑马

全景体育V
2026-06-02 05:23:58
编剧汪海林再炮轰:中国电视剧里,为什么再也见不到一个正常男人

编剧汪海林再炮轰:中国电视剧里,为什么再也见不到一个正常男人

橙星文娱
2026-06-01 11:08:30
襄阳割四赔五新后续:大批麦客连夜撤走,当地部门紧急出手整改

襄阳割四赔五新后续:大批麦客连夜撤走,当地部门紧急出手整改

奇思妙想草叶君
2026-05-31 23:01:42
27+10,24+10!文班最怕的肉盾型前锋,雷霆可以试着给他一次机会

27+10,24+10!文班最怕的肉盾型前锋,雷霆可以试着给他一次机会

移动挡拆
2026-06-02 05:27:14
欧冠决赛夜,这位美女主持人抢了镜

欧冠决赛夜,这位美女主持人抢了镜

乐道足球C
2026-06-01 20:47:46
中国男篮19人大名单!赵睿贺希宁周琦曾凡博落选!近期赛程出炉

中国男篮19人大名单!赵睿贺希宁周琦曾凡博落选!近期赛程出炉

老吴说体育
2026-06-01 23:22:58
被时代杀死的天才:真正缔造国民党的人,根本不是孙中山

被时代杀死的天才:真正缔造国民党的人,根本不是孙中山

老达子
2026-06-01 06:40:03
两个儿子先后卧轨自杀,这个女作家为什么还能笑出来?

两个儿子先后卧轨自杀,这个女作家为什么还能笑出来?

脆皮先生
2026-06-01 20:15:53
你不知道的民国,一段了不起的传奇,一个被雪藏的高光时代

你不知道的民国,一段了不起的传奇,一个被雪藏的高光时代

史政先锋
2026-06-01 11:41:21
CCTV5直播!上午8点30分!NBA总决赛G1来袭,文班和大头再续恩怨

CCTV5直播!上午8点30分!NBA总决赛G1来袭,文班和大头再续恩怨

球盲百小易
2026-06-02 00:52:56
北京楼市开始离谱了!朝阳区北四环板块房价从14.3万变成7.5万

北京楼市开始离谱了!朝阳区北四环板块房价从14.3万变成7.5万

靓仔情感
2026-06-02 00:56:37
日本杀人犯逃亡期间自残整容:缝鼻子割嘴唇挖痣,下场太狠

日本杀人犯逃亡期间自残整容:缝鼻子割嘴唇挖痣,下场太狠

赴一场山海啊
2026-06-01 01:41:14
继德国之后,英国也贴出中文标语?中国游客为何屡遭专属中文歧视

继德国之后,英国也贴出中文标语?中国游客为何屡遭专属中文歧视

贱议你读史
2026-06-01 20:30:03
“冤不冤?”内蒙古,一女子还在哺乳期,就开始做上门按摩服务

“冤不冤?”内蒙古,一女子还在哺乳期,就开始做上门按摩服务

阿振观点
2026-06-01 20:09:42
26年来以色列向黎巴嫩最深推进,插旗战略城堡“南方之眼”!法国怒批:不可接受

26年来以色列向黎巴嫩最深推进,插旗战略城堡“南方之眼”!法国怒批:不可接受

红星新闻
2026-06-01 16:40:13
日本彻底慌了!6 月 1 日中国一记重拳落下

日本彻底慌了!6 月 1 日中国一记重拳落下

果妈聊娱乐
2026-06-01 20:33:59
杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

奇思妙想草叶君
2026-06-01 19:40:34
央视再曝新毒物!长期用会致癌,已流窜至全国,不少婴儿孕妇中招

央视再曝新毒物!长期用会致癌,已流窜至全国,不少婴儿孕妇中招

云舟史策
2026-06-01 19:31:57
4名顾客吃火锅写5000字差评:称食材腥,不愿买单,现场画面扒出

4名顾客吃火锅写5000字差评:称食材腥,不愿买单,现场画面扒出

李晚书
2026-06-01 10:53:54
伊朗公布世界杯26人名单:33岁国米旧将领衔 4人旅欧 阿兹蒙落选

伊朗公布世界杯26人名单:33岁国米旧将领衔 4人旅欧 阿兹蒙落选

我爱英超
2026-06-01 21:14:05
2026-06-02 06:52:49
华矩科技
华矩科技
领先数据治理技术与服务提供商
33文章数 0关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

数码
艺术
游戏
健康
本地

数码要闻

LG 34U601B 1800R曲面显示器开售:34英寸21:9带鱼屏,1599元

艺术要闻

周杰伦花 1.36 亿拍下的这幅画

LPL最圈粉战队诞生!曾是LPL豪门落寞多年,如今上万人打出满分

干细胞临床研究向患者收费?别踩坑

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版