2025年12月12-13日,第八届GAIR全球人工智能与机器人大会在深圳·博林天瑞喜来登酒店正式启幕。
作为AI 产学研投界的标杆盛会,GAIR自2016年创办以来,始终坚守“传承+创新”内核,始终致力于连接技术前沿与产业实践。
在人工智能逐步成为国家竞争核心变量的当下,算力正以前所未有的速度重塑技术路径与产业结构。13日举办的“AI 算力新十年”专场聚焦智能体系的底层核心——算力,从架构演进、生态构建到产业化落地展开系统讨论,试图为未来十年的中国AI产业,厘清关键变量与发展方向。
会上,欧洲科学院院士、美的首席信息安全官兼软件工程院院长、IEEE Fellow、IET Fellow、ACM杰出科学家刘向阳,在大会上带来题为《中立云:赋能AI与AI赋能的多云统一数字化底座》的主题演讲,分享了美的在企业级数字化与AI实践中的真实路径。
![]()
深耕数字化与信息安全领域的刘向阳,曾任职蚂蚁集团首席科学家、美国高校教授,如今在美的集团主导数字化底座与信息安全建设。他敏锐指出,当前多数企业在 AI 落地中面临 “数字化底座薄弱” 的核心问题——若将数字化比作建筑,底座如同地基,直接决定 AI 价值的上限。
围绕“地基”该怎么打,他直指企业常见的两条路径:自建数据中心,或全面上公有云。前者看似成本低,但现实往往事与愿违,“如果一个CIO真能把数字化底座建得非常好,那他其实已经可以去开一家公有云了。”在他看来,多数企业的自建底座仍停留在上世纪90年代的虚拟化技术,存在技术老旧、产品杂乱、稳定性和安全性难以保障的问题。
而公有云看似先进,却又带来了另一组难题:多云几乎是大型企业的必然选择,美的目前使用的云超过8朵,但彼此之间互不兼容,且迁移难、联动难,最终形成云孤岛、数据孤岛。在业内,一个数字化应用的跨云迁移通常需要至少半年以上。
正是这样的背景下,刘向阳带领美的选择了一条“自建云能力”的路径。他详细拆解了美的如何构建一体化云架构,打通数据中心与多公有云资源,同时落地全栈监控、自动化运维、安全防护等核心能力,为企业数字化转型提供可复用的实践方案。
以下是刘向阳演讲的精彩内容,雷峰网作了不改变原意的整理与编辑:
一、规模≠能力,底座技术代差侵蚀企业数字化ROI
感谢大会的邀请,非常高兴有这个机会跟大家做技术交流。我来自美的集团,在美的集团负责两块业务,一是集团的数字化底座,二是集团的信息安全。在加入美的之前,在蚂蚁集团做首席科学家,再之前在美国德州大学奥斯汀分校计算机系博士毕业,又在美国高校做了十多年教授。
首先简单介绍一下美的集团,大家熟悉的是它的To C业务,它现在每年有3000多亿的To C业务,实际它还有1000多亿的To B业务,包括楼宇科技、数据中心制冷,还包括工业技术、机器人与自动化、医疗、物流等等。例如,华为最大的贵阳数据中心,机房制冷就是美的楼宇科技提供的,根据美国商业专利数据库的数据,美的专利在中国企业中排行第一,在世界排行第四,连续十几年是世界500强,也被评为全球最有价值科技品牌Top100。
本次大会的主题跟AI相关,但实际上AI在很多企业并没有起到大家所预期的价值。AI的基本功是数字化,数字化的基本功是数字化底座。如果把数字化比作一栋楼的话,数字化底座就像地基,地基决定着你的楼能盖多高。
数字化底座的建设一共有两个选项,一个是在自己的数据中心建设,另一个是在公有云上建设。
在自己的数据中心中建设,好处是什么?成本低。跟公有云相比,公有云是你在数据中心建设成本的6~10倍。在自己数据中心建设数字化底座的缺点是很难搞好,它有很多原因:
首先,技术非常老旧,很多底座都是诞生于90年代的技术,跟现在公有云的基于云原生的技术体系相比有代际差距。
其次是产品杂,大家买的软件有商用的、有开源的,互相之间无法联动,很多想实现的功能都实现不了。需要注意的是,所有开源都不是直接给企业用的,都不是企业版。大多数企业驾驭不了开源,因为所有的软件都有bug,包括开源,当系统出现故障的时候,绝大多数企业无法定位bug、更没有修复开源软件bug的能力。
技术差、产品杂给企业带来的是整个数字化底座的稳定性和安全性很差。大的故障都是架构和体系的问题。信息安全不是一个信息安全团队就能搞好的,需要整个团队和公司的配合,尤其是基础设施的配合。举个例子,绝大多数企业的数据中心只有物理网络,没有虚拟网络,这会导致一个很严重的问题是,你的业务之间隔离不开。在一个数据中心里,用防火墙只能做大区域的隔离,比如做DMZ和内网的隔离、或者数据中心与数据中心之间的隔离,但一个数据中心里业务系统可能有几十上百个,这些业务系统之间无法隔离,一个系统被攻破,就全军覆没了。
另外,技术差,产品杂还给企业带来效率低下,例如每个团队都要搭建运维,比如中间件、数据库等。
用公有云,不仅成本高,还会涉及多云的问题,像美的,我们用了8朵云。为什么会用多个云?有很多原因,不同部门可能选了不同的云,包括公司在不同的历史阶段也可能选择了不同的云,还有企业出海,你公司去海外开展业务的地方,很可能你之前用的公有云在当地没有开服,那你只能用另外一朵公有云,大家要知道,没有任何一个公有云在全世界任何地方都开服。
但多云带来的问题,一是适配很难:每个公有云都是不兼容的,从一朵公有云迁移到另一朵公有云,需要做大量的业务改造,业界普遍情况是至少需要半年的改造时间,如果你半年内能改造完,就已经非常好了。其次,联动很难,会出现云孤岛问题、数据孤岛的问题。另外,多云也给运维带来高复杂度,因为每朵公有云都不一样,你的运维团队需要一个一个去熟悉。
二、GPU利用率翻五倍、运维工单九成自动化,美的做了什么?
我们以自己的数据中心为主,也用很多公有云,所以以上这些问题和挑战,美的都有。那美的怎么解决这些问题呢?我们建设了一整套的云计算能力,这套云计算能力既可以部署在一个企业自己的数据中心,也可以部署在这个企业所使用的公有云上。本地的数据中心,企业直接买裸金属服务器就可以;在公有云上,企业买虚拟机即可。也就是说,数据中心的裸金属之上、公有云的虚拟机以上,都是我们的整套云计算软件。
这一架构对企业来说有什么好处?
首先,自有的数据中心摆脱了传统计算虚拟化的陈旧模式,升级为云原生技术体系,跟主流公有云是一样的技术体系。
其次,云下数据中心和云上公有云之间、以及不同公有云之间,就完全是一套技术体系了,应用软件从自有数据中心迁移到公有云、或从一朵公有云迁移到另一朵云上,不需要任何迁移改造。
第三,对一个企业所拥有的全部公有云上的资源及全部数据中心上的资源,我们是操作系统级别的统一纳管统一调度。上层业务系统不需要感知底层部署环境,无论是 AWS、阿里云,还是其他硬件设施,体验完全一致,真正实现了“全球一张网,全球一朵云,一个企业一朵云”。
![]()
在统一的云底座之上,我们构建了多层级的技术平台矩阵:包括计算存储和网络的IaaS平台、容器平台、服务治理、API网关等的应用管理PaaS平台、AI算力平台。包括自动化运维平台和全栈监控平台的运维平台;大数据引擎平台与大数据研发平台;数据库管理平台、数据库引擎平台。此外,还自研了一套研发效能平台,和集统一身份安全平台、四合一终端安全平台(包括零信任、准入、 数据防止泄漏DLP、桌面管理)、自动化攻击模拟平台、机密管理平台于一体的安全平台。
四年前,我刚加入美的时候,我们的底座技术架构还处于一堆商用产品的“混搭”状态,之后逐步进行自研替换,例如我们自研的企业版Linux操作系统替换了RedHat,自研的软件负载均衡替换了F5设备,自研的全栈监控平台替换Dynatrace,自研的大数据研发平台替换Databricks,自研的大数据引擎平台替换了Cloudera CDP,自研的零信任替换了Fortinet VPN,自研的DLP替换了McAfee DLP,自研的准入替换了Forescout准入,自研的桌管替换了联软的桌管。对业务来讲,这一系列升级可以实现最快速的响应——无论部署在公有云还是本地数据中心,都可以做到一键部署、全球统一、无缝迁移。
接下来,我对各个部分稍微展开进行介绍。
![]()
对AI算力平台,如果大家买了GPU的卡,没有这个算力平台,GPU利用率可能就只有10%;有了这个算力平台,至少可以提升4~5倍,相当于降本4~5倍。这套软件下面,支持异构的卡,国内外的卡都支持。而且,我们的AI算力平台既可以部署在本地的数据中心,也可以部署在公有云上。当本地数据中心的资源不够时,任务会自动弹到云上,不需要任何人的介入。
同时,我们还搭建了一套AI网关。在美的,AIGC能力已经内嵌在每个应用系统里,而且很多应用系统都允许终端用户选择用哪一个大模型。试想,用n代表应用系统数量,用m代表大模型个数,我们就有n乘以m个大模型对接。这些模型对接有很多像安全审计、额度控制、计量计费等共性能力。我们把这些共性的能力全部集成到我们的AI网关中,大幅降低重复开发。
我们打造的自动化运维平台,让美的的系统与网络运维工作实现了95%的自动化运维率 —— 即95%的运维工单无需人工介入,审批流程结束后即可自动完成全流程操作,覆盖物理机管理、网络配置、防火墙管控、数据备份、脚本执行、作业调度及CMDB同步等全场景。
以防火墙规则管理为例:一条新的防火墙规则经审批通过后,会自动下发至对应设备。美的目前管理着500多台防火墙,传统模式下如需拉黑某个IP,运维人员需逐台登录设备操作;但在这个平台上,只需完成审批流程,指令就能瞬间同步到所有目标防火墙。
再比如CMDB,数据不准确是业界公认的最大痛点,对此,我们做了大量自动校准的工作。一方面,在主机部署Agent,由Agent采集硬件信息与CMDB中的数据做对比,一旦发现不一致就会自动报警;另一方面,我们会抓取网络流量进行校验,若某个IP地址在网络流量中存在,但未录入CMDB,即可判定为CMDB数据遗漏。要知道,CMDB是所有基础设施数据的源头。CMDB数据不准的话,稳定性不可能做好;举个例子,如果一台机器你都不知道它的存在,你当然不会在这台机器上部署监控,而监控不全肯定影响稳定性。CMDB数据不准的话,安全性不可能做好;举个例子,如果一台机器你都不知道它的存在,你当然不会在这台机器上部署主机防护,而防护不全肯定影响安全性。
我们的全栈监控平台,覆盖从底层硬件到上层应用的全链路。多数企业的监控系统呈碎片化状态 —— 不同系统分别负责硬件、系统等单一维度的监控,数据分散在各个平台,故障发生时无法自动做关联分析,全靠手工,所以难以快速定位故障的位置。
对此,我们把所有数据收集聚合做综合分析,包括物理机、存储、网络性能、端侧等全维度监控数据。例如,我们的一个度量标准是用户端到端体验。当业务反馈系统卡顿,但技术侧感知不明显时,平台就能一键生成完整调用链路,每个调用所消耗的时间都一目了然。另外,平台会自动监控所有慢SQL语句,这类语句在流量高峰时极易引发故障。
我们的大数据体系由两大核心平台构成:引擎平台负责底层数据计算,开发平台则承载代码编写与数据治理功能,是一站式的大数据研发运维平台。开发平台整合了多源数据同步能力,支持离线与在线代码分析,并内置运维、数据治理等能力。
我们的大数据平台做了很多降本增效的能力,而这些能力是公有云上的大数据平台所不具备的。对于公有云来说,没必要花很大的精力为了让自己减少营收。举个例子,大多数企业的大数据集群都很大,而且有两套集群:一套是生产集群、一套是开发测试集群。一般来说,生产数据要同步到开发测试集群、在这个开发测试集群进行开发测试,调试好之后才放到生产集群上跑。对我们的大数据平台,只有一套数据,只有一套集群,就是生产集群,大数据开发人员就在生产集群上做开发。给开发人员的感受是他可以在生产数据上进行开发、增删查改,但这些动作并不会真正污染生产数据。并且,开发在白天、跑数在晚上,完美错峰,最大化提升集群资源利用率。
在数据治理方面,美的集团的数据治理都在我们这个大数据平台。我们数据治理能力很多,我这里以全自动数据血缘分析为例讲一下。可以图形化展示表与表之间的血缘关联关系,一旦某张表数据异常,就能快速定位受影响的下游数据链路。此外,AI 问数功能已全面投入使用,已经为美的业务部门落地了200多个应用场景,让业务人员通过自然语言就能完成数据分析。
大数据引擎平台则与开源生态全面兼容。我们联合Intel开展性能优化,目前引擎运行效率比开源引擎高40%~60%。
我们还构建了数据库管理平台,能对MySQL、Oracle等各类开源或商用数据库的增删查改等操作进行统一管控。大多数企业的数据库管理员、研发、测试等人都直连数据库进行操作,这样做的问题是无法进行细粒度权限管控,而且看了什么、改了什么、删了什么、增了什么都无法进行审计。
在美的,我们禁止任何人直连数据库,员工需要用个人账户登录到这个平台,对数据库进行操作,写各种SQL语句。我们会解析员工的SQL语句,判断是否有权限,有则通过、无则要申请。
其次,数据库管理员DBA需要很多工具,但是在很多企业这些工具都是缺失的。我们的数据库管理平台提供了几乎全部DBA所需工具,包括数据归档、校验、优化诊断等等。另外,我们的监控平台所监控到的所有慢SQL,会自动同步在这个数据库管理平台平台上,然后这个平台会利用AI大模型技术自动生成慢SQL的修改建议。
在数据库引擎平台层面,我们认为大多数企业用开源数据库的性能就够了,尤其是制造业。但开源数据库能直接用吗?所有的开源软件都不专业、都不是企业版,拿过来直接用的话,没有高可用、高可靠或动态扩缩容这些企业级能力,数据库会非常容易宕机。我们的数据库引擎平台就是对这些开源数据库进行企业级能力增强,并且全部数据库实现了服务化(即SaaS化)与容器化,业务部门根据需要申请数据库实例就可以使用了,不需要自己搭建和运维数据库。
我们还打造了一整套的研发效能平台,涵盖项目管理、研发管理、自动化测试、电控软件开发、全流程 AI 代码生成及度量平台等模块。所有研发数据均沉淀到度量平台,用于量化分析业务指标与研发效率指标。
在美的,AI代码生成功能已经进入规模化实用阶段了:
目前美的入库代码中,每四行代码就有一行是AI写的,即AI代码入库率达25%。现在业界大多数度量不了AI代码入库率,只能度量采纳率——原因在于大多数企业软件开发人员使用的是本地集成开发环境IDE,无法采集到的开发者的行为和代码入库情况,只能使用采纳率来衡量,但是采纳的的代码未必最终入库的代码,采纳的代码有很多都是垃圾,需要修改或扔掉。所以其实采纳率这个统计数据实际意义不大。而我们采用的是Cloud IDE,只有Cloud IDE 才能度量到入库率。美的现在98%的软件研发人员每天都在使用这个工具开展编程工作。
三、安全演练代价高?美的四年打磨终端安全平台
密码是信息安全的基石,但很多企业的密码管理存在严重漏洞:应用系统访问数据库的密码多直接写死在代码中,一套密码往往被多个业务系统所使用,导致密码难以定期轮换,存在很大的脱库风险;此外,运维人员习惯用 “密码本” 记录各类密码,而这类密码本非常容易通过钓鱼攻击被窃取。
![]()
对此,我们搭建的机密管理平台,采用认证Token机制:业务系统通过临时Token从平台获取数据库密码,平台与数据库实时打通,可自动定期更换密码,且业务侧无需做任何改造。
第二,是自动化攻击模拟平台。如何判断一个企业信息安全的建设水平?这就需要实战演练。但请攻击队的成本很高,每次几十万。我们自研的攻击模拟平台可以让企业7×24小时的自己攻击自己,每天早上信息安全团队会收到报告,然后就可以根据这份报告整改。
对美的的终端安全,我们建设了一个四合一的终端安全平台,包括零信任、DLP(数据防泄漏)、终端准入、设备管控能力。
传统 VPN 只能提供四层网络的防护,无法实现业务级精准访问的控制——用户登录VPN后,可以访问内网所有业务系统,且公司也无法限制访问时段,如夜间2点到6点禁止访问核心系统。零信任架构则可以实现细粒度的业务权限与时间管控。
对DLP,我们调研了市面上所有的DLP产品,发现几乎都是基于关键词检测技术的。基于这种老旧技术的DLP有很多问题。第一,误报率太高,信息安全的人完全查不过来。第二,即使能查得过来,信息安全人员也无法判断一个外发文档是不是机密,因为信息安全人员的定位也不是精通公司技术。第三,这样的DLP很容易被员工绕过,文件加个密就绕过了。我们的DLP采用 “只进不出”的核心原则:公司配发的终端默认禁止任何数据外发,所有外发都是基于白名单的机制。
对终端准入,很多企业依然采用802.1x协议做准入控制,这就需要逐台配置路由器节点,工作量巨大。我们将准入功能直接内置在终端侧,无需进行网络设备配置,大幅降低部署成本,提升部署和运营的效率。
以上是我们站在甲方视角打造的一整套数字化底座,实现了公有云与自有数据中心资源的全面整合,真正实现全球一张网,全球一朵云,一个企业一朵云。现在我们也做对外输出,让这个平台赋能更多企业。感兴趣的企业可以联系我(邮箱:alexliu360@qq.com,请务必注明:公司-职务-姓名。)。谢谢大家。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.