网易首页 > 网易号 > 正文 申请入驻

数据治理筑牢AI地基 开源闭源竞合催生企业级AI新范式——访Cloudera大中华区技术总监刘隶放

0
分享至

本报记者 秦枭 北京报道

在AI技术狂飙突进的今天,数据治理作为“AI的地基”,其重要性愈加凸显。如果没有可信且准确的数据,即使是最先进的算法也难以发挥作用。就像坚实的地基支撑起大厦,可靠的数据是AI模型提供准确预测和做出明智决策的基础。缺乏可靠数据,无论AI模型多么高效节能,都会像纸牌屋一样崩塌,无法为企业创造价值。

然而,企业普遍面临数据孤岛、质量参差、硬件利用率低等问题。因此,如何突破数据治理瓶颈成为行业关注的焦点。Cloudera大中华区技术总监刘隶放近日在接受《中国经营报》记者采访时,围绕数据治理技术难点、企业核心竞争力、开源与闭源趋势、AI模型效能提升等话题,分享了其实践经验与行业洞察。

数据治理的破局之道

在人工智能快速发展的当下,数据作为AI的核心生产要素,其治理水平直接影响着AI应用的成效。

《中国经营报》:“可靠数据是AI的地基”,但当前企业普遍面临数据孤岛、质量参差等问题。从技术角度分析,行业在数据治理方面面临的最大瓶颈是什么?

刘隶放:数据治理的核心挑战源于企业对数据价值的认知偏差。许多企业将数据视为“静态资产”,而非动态资源。例如,传统数据仓库模式下,数据经过层层清洗、建模后形成报表,看似“干净”,却难以支撑实时分析和AI训练。这就像用“老图纸”建“新大楼”,必然导致资源浪费和效率低下。

更深层的问题在于,企业往往缺乏统一的数据管理策略。以金融行业为例,银行的客户数据可能分散在信贷、理财、支付等多个系统中,每个系统都有独立的数据管理方式。这种“烟囱式”架构不仅导致数据孤岛,还使得数据溯源和质量管控变得异常复杂。

《中国经营报》:包括DeepSeek和一体机等智能体,AI正越来越多地走进我们的工作、生活以及企业的生产过程中。那么,Cloudera如何通过数据治理来提升AI模型的效能?

刘隶放:数据治理在AI时代需要实现三个转变:从“数据可用”到“数据可信”,从“静态管理”到“动态监控”,从“单点优化”到“全链条协同”。

假设我是一个传统数据科学家,随着AI领域的发展,很多人很容易转型为AI专家。在以往的体系中,我们常说“一人一机一卡”,但真正进入企业应用时,并不再是传统的单一模式,而会演变成“多人、多机、多卡”的情景。

在中小规模团队中,面对面协作尚可通过人际沟通协调资源,但当企业研发规模扩大,技术栈的统一管理与资源高效调配便成为核心挑战。

一是模型全生命周期管理。企业普遍基于开源模型进行二次训练,需建立标准化版本控制机制。每一次数据处理逻辑调整、算法参数优化或数据集迭代,都需通过中心化平台记录操作痕迹,支持版本回溯与性能比对。这种机制不仅确保研发过程可复现,更实现技术资产的沉淀。

二是数据处理。基于底层数据,构建安全隐私保护环境,做好数据完整性、隐私及清洗保障,在外包场景下确保数据安全管理。

三是数据溯源。其是数据治理的关键一环,可追溯数据来源和生成过程,应对业务部门质疑。

多年来我们一直致力于从原数据管理到数据溯源,再到全链条的数据管理。这样不仅能帮助客户进行用户身份验证和安全控制,还能在数据领域中为原数据管理提供坚实支撑。

构建开放可控的企业级AI体系

市场竞争日益激烈,企业为了提升竞争力,需要不断寻找新的增长点和优化业务的方法。AI作为一种能够提高效率、创新产品和服务、优化决策的技术,成为企业关注的焦点。企业意识到如果不积极应用AI,可能会在竞争中落后,因此开始思考如何利用AI来提升自身的竞争力。

《中国经营报》:DeepSeek掀起了开源技术热潮,如何看待开源与闭源的竞争关系?未来会形成怎样的技术生态?

刘隶放:我们长期以来秉承的Cloudera理念认为,开源无疑能促进更快和更多的创新。

开源确实加速了技术创新,尤其是AI领域,DeepSeek的开源让更多企业能够低成本使用大模型。但大模型训练需要巨大的硬件投入,个体开发者难以承担,这推动了闭源体系在专有算法领域的发展。目前我们也看到,许多人在销售宣称可在单机上运行DeepSeek的解决方案;虽然模型训练阶段需要大量设备,但训练完成后,模型可以在较小设备上运行,从而对闭源体系形成了挑战。

从企业角度而言,大家现在都能够调用开源模型,使得企业用户在这种竞争中受益。我们期望通过不断的竞争推动技术发展,未来可能形成一种混合模式:在核心算法方面闭源体系具备一定优势,而在用户案例开发方面开源体系则可能处于领先地位,这两者结合或将成为未来的主流模式,从而进一步推动技术持续延伸。

《中国经营报》:是否所有企业都有必要铺设自己的专业模型?

刘隶放:这个问题在年前还只是一个讨论话题,而年后就转变成“如何执行”的问题。去年虽然大语言模型非常火,很多客户在考虑这件事,但实际上很难说服部分领导决策,有的领导依然持观望态度。我感觉过完年后问题不再是“为什么要做”,而是“做什么”和“如何做”。现在国内客户相对务实,他们关注的是自己能否参与,能做哪些应用。

对于企业而言,我们通常会从内部落地的角度考虑,选取那些可以快速见效、产出高效益的场景。有些场景不需要投入过多的物力和人力。花钱买硬件和软件都还好,可是招聘几个数据科学家或AI专家却不容易。在这种情形下,我们要寻找可以让客户迅速见效并获得收益的AI场景。

只要在企业内部搭建一个平台,把相应的知识库数据输入进去,利用多种训练方式,例如用增强式检索、RAG训练等,就能形成问答机器人或流程管理、文件处理等应用。这不像微调那样需要大量的人力或者专家,只需很少的人力,依靠企业已有数据,加上提示词工程及其他辅助调整,就可以得到符合企业运营需求的结果。

《中国经营报》:Cloudera能为企业定制化大模型提供哪些帮助?

刘隶放:Cloudera可以为客户提供的是工具层面的能力。我们合作的客户大多规模较大,存在协同开发需求,在这种情况下,他们需要实现统一的开发环境,客户需要一个能够支持企业内部协同开发的统一平台,我们的方案基于可扩展的K8s技术,为企业提供统一化的开发环境。还需要一个专用AI模型管理器,我们提供专有的AI模型管理平台,帮助企业内部统一管理引入的开源模型以及在此基础上不断优化形成的专有模型,确保整个开发流程和模型迭代都有据可查。最后是需要AI推理及部署平台,随着AI推理日益流行,我们的工具还能介入并借助推理服务,实现模型最后部署的高效性。

另外,我们还有专业服务团队协助客户实施方案。通过与国内外众多客户的交流,我们可以借鉴彼此的经验,帮助客户根据自身环境制定合理的方案。此外,我们平台支持多种方式构建最终模型,通过增强式检索、提示工程以及微调等方法,不仅帮助客户产生模拟训练数据,还可以在前期通过访谈了解客户现有的数据和人力能力,进一步制定量身定制的解决方案。

数据治理是AI时代的核心基础设施,Cloudera通过技术创新与行业实践,帮助企业破解数据孤岛、质量参差等难题,构建开放可控的AI体系。在开源与闭源的竞合中,Cloudera以企业级服务能力形成技术护城河,推动数据治理从“管控”走向“赋能”。随着技术趋势的演进,数据治理将更智能化、平民化,成为企业释放数据价值、提升竞争力的关键引擎。

(编辑:张靖超 审核:李正豪 校对:颜京宁)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
切尔诺贝利被遗忘的60万人:拿铲子对抗核辐射,没人告诉他们真相

切尔诺贝利被遗忘的60万人:拿铲子对抗核辐射,没人告诉他们真相

网易新闻出品
2026-04-26 08:51:02
严打又回来了?但这次和80年代完全不同,普通人只需要记住这3条

严打又回来了?但这次和80年代完全不同,普通人只需要记住这3条

呼呼历史论
2026-04-26 11:00:33
嫌犯携多种武器冲向安检点后开火,特朗普再次躲过危险称与伊朗无关

嫌犯携多种武器冲向安检点后开火,特朗普再次躲过危险称与伊朗无关

澎湃新闻
2026-04-26 12:32:27
白宫开枪凶手是老师?网传其刚在洛杉矶拿了“月度优秀教师”奖

白宫开枪凶手是老师?网传其刚在洛杉矶拿了“月度优秀教师”奖

爆角追踪
2026-04-26 12:16:15
4个去中国化最彻底的国家,一个已全盘西化,一个正试图恢复汉字

4个去中国化最彻底的国家,一个已全盘西化,一个正试图恢复汉字

你是我心中最美星空
2026-04-26 07:15:09
田馥甄晒3人合体爬山,陈嘉桦带包子接地气,任家萱现在最没星味

田馥甄晒3人合体爬山,陈嘉桦带包子接地气,任家萱现在最没星味

离离言几许
2026-04-25 20:49:13
暴跌11℃!即将大反转,南京人注意了,这波很猛!

暴跌11℃!即将大反转,南京人注意了,这波很猛!

鲁中晨报
2026-04-26 11:56:06
森林狼3比1掘金:逆境中杀出了多孙穆?!

森林狼3比1掘金:逆境中杀出了多孙穆?!

张佳玮写字的地方
2026-04-26 12:02:17
强肝第一名!不是枸杞,也不是山药,而是家家户户都有的

强肝第一名!不是枸杞,也不是山药,而是家家户户都有的

华庭讲美食
2026-04-26 11:25:05
尴尬!一主管在工作群发离职感言,被下属怒怼,网友:就悄悄走吧

尴尬!一主管在工作群发离职感言,被下属怒怼,网友:就悄悄走吧

火山詩话
2026-04-26 14:15:15
想干啥?青岛两根立杆装18个摄像头24个补光灯!当地警方致歉

想干啥?青岛两根立杆装18个摄像头24个补光灯!当地警方致歉

听心堂
2026-04-25 19:00:02
小米:李某华已被行拘

小米:李某华已被行拘

南方都市报
2026-04-26 12:01:47
4月24日,一份委员建议炸了企退人的微信群:终于有人敢说了

4月24日,一份委员建议炸了企退人的微信群:终于有人敢说了

匹夫来搞笑
2026-04-26 07:12:22
从摊位被挡到全网撑腰,长沙后湖这个煎饼摊前队伍越排越长,女摊主有个朴素简单的愿望

从摊位被挡到全网撑腰,长沙后湖这个煎饼摊前队伍越排越长,女摊主有个朴素简单的愿望

潇湘晨报
2026-04-25 21:02:19
今天夜间起将有大暴雨!五一假期天气将……

今天夜间起将有大暴雨!五一假期天气将……

深圳晚报
2026-04-26 15:10:19
月入过万!“崩老头”登上热搜,80后90后男性,成为年轻女性目标

月入过万!“崩老头”登上热搜,80后90后男性,成为年轻女性目标

火山詩话
2026-04-26 15:18:10
天涯神贴之东三省人口持续流出的真正原因

天涯神贴之东三省人口持续流出的真正原因

回旋镖
2026-04-26 13:42:15
笑不活了!女孩把鸡画得圆肥被判不合格,家长把鸡的照片发给老师

笑不活了!女孩把鸡画得圆肥被判不合格,家长把鸡的照片发给老师

夜深爱杂谈
2026-04-25 07:33:34
一旦武统台湾,这4个台湾人必上“斩首”名单,一个都跑不掉!

一旦武统台湾,这4个台湾人必上“斩首”名单,一个都跑不掉!

混沌录
2026-04-23 21:14:04
上海出发3小时直达!这座小城最近爆火!山水、人文、美食一站式拿捏

上海出发3小时直达!这座小城最近爆火!山水、人文、美食一站式拿捏

新民晚报
2026-04-26 15:43:29
2026-04-26 16:24:49
中国经营报 incentive-icons
中国经营报
中国经营报微博由《中国经营报》社有限公司运营,与中国企业同步成长
23770文章数 30231关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

伊朗拒见美代表转赴阿曼 特朗普怒撤行程

头条要闻

伊朗拒见美代表转赴阿曼 特朗普怒撤行程

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

健康
教育
房产
公开课
军事航空

干细胞如何让烧烫伤皮肤"再生"?

教育要闻

麻省理工公开课19:吉尔伯特教授线性代数课-

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版