网易首页 > 网易号 > 正文 申请入驻

数据治理筑牢AI地基 开源闭源竞合催生企业级AI新范式——访Cloudera大中华区技术总监刘隶放

0
分享至

本报记者 秦枭 北京报道

在AI技术狂飙突进的今天,数据治理作为“AI的地基”,其重要性愈加凸显。如果没有可信且准确的数据,即使是最先进的算法也难以发挥作用。就像坚实的地基支撑起大厦,可靠的数据是AI模型提供准确预测和做出明智决策的基础。缺乏可靠数据,无论AI模型多么高效节能,都会像纸牌屋一样崩塌,无法为企业创造价值。

然而,企业普遍面临数据孤岛、质量参差、硬件利用率低等问题。因此,如何突破数据治理瓶颈成为行业关注的焦点。Cloudera大中华区技术总监刘隶放近日在接受《中国经营报》记者采访时,围绕数据治理技术难点、企业核心竞争力、开源与闭源趋势、AI模型效能提升等话题,分享了其实践经验与行业洞察。

数据治理的破局之道

在人工智能快速发展的当下,数据作为AI的核心生产要素,其治理水平直接影响着AI应用的成效。

《中国经营报》:“可靠数据是AI的地基”,但当前企业普遍面临数据孤岛、质量参差等问题。从技术角度分析,行业在数据治理方面面临的最大瓶颈是什么?

刘隶放:数据治理的核心挑战源于企业对数据价值的认知偏差。许多企业将数据视为“静态资产”,而非动态资源。例如,传统数据仓库模式下,数据经过层层清洗、建模后形成报表,看似“干净”,却难以支撑实时分析和AI训练。这就像用“老图纸”建“新大楼”,必然导致资源浪费和效率低下。

更深层的问题在于,企业往往缺乏统一的数据管理策略。以金融行业为例,银行的客户数据可能分散在信贷、理财、支付等多个系统中,每个系统都有独立的数据管理方式。这种“烟囱式”架构不仅导致数据孤岛,还使得数据溯源和质量管控变得异常复杂。

《中国经营报》:包括DeepSeek和一体机等智能体,AI正越来越多地走进我们的工作、生活以及企业的生产过程中。那么,Cloudera如何通过数据治理来提升AI模型的效能?

刘隶放:数据治理在AI时代需要实现三个转变:从“数据可用”到“数据可信”,从“静态管理”到“动态监控”,从“单点优化”到“全链条协同”。

假设我是一个传统数据科学家,随着AI领域的发展,很多人很容易转型为AI专家。在以往的体系中,我们常说“一人一机一卡”,但真正进入企业应用时,并不再是传统的单一模式,而会演变成“多人、多机、多卡”的情景。

在中小规模团队中,面对面协作尚可通过人际沟通协调资源,但当企业研发规模扩大,技术栈的统一管理与资源高效调配便成为核心挑战。

一是模型全生命周期管理。企业普遍基于开源模型进行二次训练,需建立标准化版本控制机制。每一次数据处理逻辑调整、算法参数优化或数据集迭代,都需通过中心化平台记录操作痕迹,支持版本回溯与性能比对。这种机制不仅确保研发过程可复现,更实现技术资产的沉淀。

二是数据处理。基于底层数据,构建安全隐私保护环境,做好数据完整性、隐私及清洗保障,在外包场景下确保数据安全管理。

三是数据溯源。其是数据治理的关键一环,可追溯数据来源和生成过程,应对业务部门质疑。

多年来我们一直致力于从原数据管理到数据溯源,再到全链条的数据管理。这样不仅能帮助客户进行用户身份验证和安全控制,还能在数据领域中为原数据管理提供坚实支撑。

构建开放可控的企业级AI体系

市场竞争日益激烈,企业为了提升竞争力,需要不断寻找新的增长点和优化业务的方法。AI作为一种能够提高效率、创新产品和服务、优化决策的技术,成为企业关注的焦点。企业意识到如果不积极应用AI,可能会在竞争中落后,因此开始思考如何利用AI来提升自身的竞争力。

《中国经营报》:DeepSeek掀起了开源技术热潮,如何看待开源与闭源的竞争关系?未来会形成怎样的技术生态?

刘隶放:我们长期以来秉承的Cloudera理念认为,开源无疑能促进更快和更多的创新。

开源确实加速了技术创新,尤其是AI领域,DeepSeek的开源让更多企业能够低成本使用大模型。但大模型训练需要巨大的硬件投入,个体开发者难以承担,这推动了闭源体系在专有算法领域的发展。目前我们也看到,许多人在销售宣称可在单机上运行DeepSeek的解决方案;虽然模型训练阶段需要大量设备,但训练完成后,模型可以在较小设备上运行,从而对闭源体系形成了挑战。

从企业角度而言,大家现在都能够调用开源模型,使得企业用户在这种竞争中受益。我们期望通过不断的竞争推动技术发展,未来可能形成一种混合模式:在核心算法方面闭源体系具备一定优势,而在用户案例开发方面开源体系则可能处于领先地位,这两者结合或将成为未来的主流模式,从而进一步推动技术持续延伸。

《中国经营报》:是否所有企业都有必要铺设自己的专业模型?

刘隶放:这个问题在年前还只是一个讨论话题,而年后就转变成“如何执行”的问题。去年虽然大语言模型非常火,很多客户在考虑这件事,但实际上很难说服部分领导决策,有的领导依然持观望态度。我感觉过完年后问题不再是“为什么要做”,而是“做什么”和“如何做”。现在国内客户相对务实,他们关注的是自己能否参与,能做哪些应用。

对于企业而言,我们通常会从内部落地的角度考虑,选取那些可以快速见效、产出高效益的场景。有些场景不需要投入过多的物力和人力。花钱买硬件和软件都还好,可是招聘几个数据科学家或AI专家却不容易。在这种情形下,我们要寻找可以让客户迅速见效并获得收益的AI场景。

只要在企业内部搭建一个平台,把相应的知识库数据输入进去,利用多种训练方式,例如用增强式检索、RAG训练等,就能形成问答机器人或流程管理、文件处理等应用。这不像微调那样需要大量的人力或者专家,只需很少的人力,依靠企业已有数据,加上提示词工程及其他辅助调整,就可以得到符合企业运营需求的结果。

《中国经营报》:Cloudera能为企业定制化大模型提供哪些帮助?

刘隶放:Cloudera可以为客户提供的是工具层面的能力。我们合作的客户大多规模较大,存在协同开发需求,在这种情况下,他们需要实现统一的开发环境,客户需要一个能够支持企业内部协同开发的统一平台,我们的方案基于可扩展的K8s技术,为企业提供统一化的开发环境。还需要一个专用AI模型管理器,我们提供专有的AI模型管理平台,帮助企业内部统一管理引入的开源模型以及在此基础上不断优化形成的专有模型,确保整个开发流程和模型迭代都有据可查。最后是需要AI推理及部署平台,随着AI推理日益流行,我们的工具还能介入并借助推理服务,实现模型最后部署的高效性。

另外,我们还有专业服务团队协助客户实施方案。通过与国内外众多客户的交流,我们可以借鉴彼此的经验,帮助客户根据自身环境制定合理的方案。此外,我们平台支持多种方式构建最终模型,通过增强式检索、提示工程以及微调等方法,不仅帮助客户产生模拟训练数据,还可以在前期通过访谈了解客户现有的数据和人力能力,进一步制定量身定制的解决方案。

数据治理是AI时代的核心基础设施,Cloudera通过技术创新与行业实践,帮助企业破解数据孤岛、质量参差等难题,构建开放可控的AI体系。在开源与闭源的竞合中,Cloudera以企业级服务能力形成技术护城河,推动数据治理从“管控”走向“赋能”。随着技术趋势的演进,数据治理将更智能化、平民化,成为企业释放数据价值、提升竞争力的关键引擎。

(编辑:张靖超 审核:李正豪 校对:颜京宁)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
根本不提吴艳妮!日媒沸腾了,福部真子自称发挥糟糕仍创亚洲第一

根本不提吴艳妮!日媒沸腾了,福部真子自称发挥糟糕仍创亚洲第一

杨华评论
2026-06-12 20:33:42
上海男篮200万美元续约古德温 怀特塞德新签约,卢伟爱将赴美特训

上海男篮200万美元续约古德温 怀特塞德新签约,卢伟爱将赴美特训

中国篮坛快讯
2026-06-12 15:16:04
人老了,躲过这3种病,长寿可期

人老了,躲过这3种病,长寿可期

品读时刻
2026-06-13 09:05:52
温瑞博2-3日本、林诗栋止步16强!这4个事实,才是王皓最担心的

温瑞博2-3日本、林诗栋止步16强!这4个事实,才是王皓最担心的

十点街球体育
2026-06-13 08:59:19
女总裁破产那天,我给爸打了个电话:我看上老板了,给点追妻基金

女总裁破产那天,我给爸打了个电话:我看上老板了,给点追妻基金

千秋文化
2026-06-09 22:53:05
3分钟从第九到第二!德比斯:没有64号,我连前五都进不了

3分钟从第九到第二!德比斯:没有64号,我连前五都进不了

童叔不飙车
2026-06-13 01:22:02
30分+32分+36分!队史首人!布伦森曼巴附体,若夺冠地位能超卢卡

30分+32分+36分!队史首人!布伦森曼巴附体,若夺冠地位能超卢卡

世界体育圈
2026-06-12 12:56:04
国内将逐渐停止“肠镜检查”?做完对身体有无影响?医生告诉真相

国内将逐渐停止“肠镜检查”?做完对身体有无影响?医生告诉真相

叙说医疗健康
2026-06-12 07:00:17
网传女排阵容大变动!周页彤疑似离队,季雨潇或将火速回归驰援

网传女排阵容大变动!周页彤疑似离队,季雨潇或将火速回归驰援

金毛爱女排
2026-06-13 09:02:49
顶级嘲讽?因凡蒂诺:世界杯扩军至208队意大利就能进,国足躺枪

顶级嘲讽?因凡蒂诺:世界杯扩军至208队意大利就能进,国足躺枪

kio鱼
2026-06-13 11:24:54
突发!凯尔特人酝酿惊天大交易!字母哥+墨菲都要?

突发!凯尔特人酝酿惊天大交易!字母哥+墨菲都要?

谭颞爱搞笑
2026-06-13 11:08:17
记者:罗德里将加盟巴黎,世界杯后官宣

记者:罗德里将加盟巴黎,世界杯后官宣

懂球帝
2026-06-13 11:56:07
乌克兰军费暴涨50%,排名全球第5,泽连斯基支持率61%

乌克兰军费暴涨50%,排名全球第5,泽连斯基支持率61%

史政先锋
2026-06-11 16:58:31
回韩4个月后,具俊晔近况曝光,难怪汪小菲宁愿亏钱也要和大S离婚

回韩4个月后,具俊晔近况曝光,难怪汪小菲宁愿亏钱也要和大S离婚

凡知
2026-06-13 09:27:52
李铁狱中能否看世界杯?球迷:天天踩缝纫机早已看不懂足球

李铁狱中能否看世界杯?球迷:天天踩缝纫机早已看不懂足球

十点体坛
2026-06-12 22:48:01
央视曝光红旗16F:中国攻克美国未掌握技术

央视曝光红旗16F:中国攻克美国未掌握技术

书写传奇
2026-06-13 01:03:55
医生总问“有没有性生活”?根本不是查隐私!很多人都误解

医生总问“有没有性生活”?根本不是查隐私!很多人都误解

太极本草
2026-06-07 13:19:18
重拳整治对印签证乱象,全链条封堵非法入境居留漏洞!

重拳整治对印签证乱象,全链条封堵非法入境居留漏洞!

故事终将光明磊落
2026-06-12 18:34:48
高市早苗访欧,这回将“兜售”什么“私货”?

高市早苗访欧,这回将“兜售”什么“私货”?

上观新闻
2026-06-12 14:19:36
18万开全新路虎,我劝你别买

18万开全新路虎,我劝你别买

围观商业
2026-06-12 11:24:37
2026-06-13 12:40:49
中国经营报 incentive-icons
中国经营报
中国经营报微博由《中国经营报》社有限公司运营,与中国企业同步成长
25388文章数 30249关注度
往期回顾 全部

科技要闻

SpaceX上市首日破2万亿美元,马斯克再封神

头条要闻

养生馆在洗肠液中掺酱油 北京100多名老人被坑上千万

头条要闻

养生馆在洗肠液中掺酱油 北京100多名老人被坑上千万

体育要闻

东道主三战不败!美墨开门红加拿大零的突破

娱乐要闻

12年情怀碎一地!跑男接连翻车

财经要闻

梁文锋向左,杨植麟向右

汽车要闻

2026重庆车展 长城炮Hi4-T正式上市售14.98万起

态度原创

旅游
游戏
数码
手机
艺术

旅游要闻

夏天就该这样过!大别山的夏天,从霍山大峡谷漂流的第一声尖叫开始。

第一人称类魂太难做!新游团队揭秘背后挑战

数码要闻

技嘉推出B840M FORCE WIFI6E主板:橙色点缀,双PCIe双M.2

手机要闻

苹果升级iOS 27版Find My:优化界面,可控制位置共享时长

艺术要闻

书法各体临习方法

无障碍浏览 进入关怀版