上周在波士顿召开的Splunk Conf25大会上,Splunk及其母公司思科(Cisco)推出了思科数据经纬(Data Fabric),这是一种新的架构,旨在将机器数据转化为人工智能的“可用燃料”。
该系统基于Splunk平台,旨在使企业更容易、更低成本地收集、管理和分析来自服务器、网络、应用程序和边缘设备的巨大机器数据流。如果得到有效利用,这些数据流可以成为从训练自定义AI模型到编排代理工作流程的所有内容的原料。
公司高管将这一发布视为Splunk发展的下一步。思科总裁兼首席产品官Jeetu Patel称机器数据是一座“金矿”,传统上对于人工智能来说,激活机器数据过于繁琐和昂贵。Patel表示,新结构将Splunk在云数据分析中的原始角色扩展到了人工智能时代,为企业提供了一种使用自己的专有机器数据构建模型的方法。
分解功能
在发布时,思科和Splunk概述了数据结构的几个新组件,展示了该架构在实践中的工作方式。发布会上强调的功能包括:
时间序列基础模型(TSFM):支持高级模式分析和时态分析。对时间序列数据进行推理,实现高级异常检测、预测和思科数据结构中的自动根本原因分析。它推动主动运营,加速事件响应,并将机器数据转化为可操作的情报信息。
统一、智能的数据基础:无缝地跨边缘、云和内部部署,包括SecOps、ITOps、DevOps和NetOps,转化为实时、可操作的见解同时优化成本和效率。
无边界实时搜索和分析:无论数据位于何处,都可以立即搜索和分析数据,跨Amazon S3、Apache Iceberg、Delta Lake(带Spark)、Snowflake以及Microsoft Azure,同时智能地将数据路由到最合适的存储或分析引擎用于工作负载。
推动人工智能创新:Splunk Machine Data Lake等独特功能将提供为模型训练和企业分析提供持久的、人工智能就绪的基础。连同Splunk AI Toolkit和MCP服务器,这些创新有助于将机器数据转化为先进人工智能能力的燃料来源。
全周期AI原生:在数据生命周期的每个阶段(从输入到输出)提供内置AI以及对自我修复操作的持续监控——推动前所未有的生产力,敏捷性和创新性。
灵活、开放的架构:适应任何具有开放标准、即插即用的环境。
集成和自助服务工具:广泛推动创新。
Splunk高级副总裁兼平台总经理Mangesh Pimpalkare称:“思科Data Fabric的战略愿景最终是帮助企业为人工智能时代提供统一的运营解决方案。”这意味着统一企业如何应对跨安全、IT、DevOps和网络团队的运营挑战。Pimpalkhare说,这些工作几乎不可能用传统的仪表板和查询来管理。企业的复杂性,以及人工智能工具和机器数据的激增,使得解决问题变得被动和缓慢。Data Fabric背后的愿景是翻转该模型,使用在机器数据上训练的人工智能及早发现问题,并协助人类操作员更快地解决问题。
他解释说,这与早期Splunk架构的不同之处在于,它是人工智能优先,而不是人类优先。之前的迭代侧重于通过减少查询数量或将其翻译成自然语言来提高人类工作流程的效率。相比之下,Data Fabric设想的人工智能代理可以主动监控企业系统,根据每个行业或组织的独特模式进行微调,并能够在异常成为问题之前检测到异常。这就是思科在谈论“激活”机器数据时的意思:从被动的信息存储转向数据持续训练实时监控和响应模型的系统。
这种方法的核心是Splunk机器数据湖。与将所有内容整合到一个物理存储库中的传统数据湖不同,这是一个分布式数据湖,对机器数据进行编目和连接。其中一些数据可能存储在Splunk或Cisco中,但其中大部分存储在客户存储库或Snowflake和ServiceNow等系统中。通过联合查询并跨这些来源构建知识图谱,Splunk旨在让人类操作员和人工智能代理能够按需汇集所需的数据。
启用此功能的是Splunk模型上下文协议(MCP)服务器,Pimpalkare将其描述为Splunk功能的自然语言接口。与过去的API非常相似,MCP为外部代理和应用程序调用Splunk函数提供了一种标准化的方法。这不仅为Splunk自己的代理AI产品提供了动力,还允许外部AI系统使用自然语言提示访问Splunk平台。
展望未来,Pimpalkhare认为Data Fabric将朝着三个重要方向发展。首先,采用Apache Iceberg等开放标准和接口对于整个行业的互操作性至关重要。其次,他预计特定领域模型将兴起,而不是巨大的通用基础模型。最后,他强调了客户微调的必要性:虽然Data Fabric提供了工具包,但企业需要根据其在金融、零售和媒体等领域的独特需求进行调整。
对于Pimpalkare来说,Data Fabric本身是思科和Splunk本周发布的最令人兴奋的产品。他说:“如果我们把所有的精力都集中在一件事上,那就是Data Fabric,因为它为所有可观察性用例、所有安全用例驱动了平台效应,并创造了一个自然的飞轮。”
时间序列数据的基础模型
思科数据结构最有趣的功能之一是它的时间序列基础模型。机器数据通常以时间序列的形式出现,每分钟或每秒收集一次指标,有时跨越数月或数年。构建一个基础模型来解释这些序列具有重要意义,因为它允许人工智能捕捉复杂系统的节奏和相关性,就像大型语言模型捕捉人类文本的结构一样。
尽管LLM已经席卷了世界,但它们并不总是每个用例的答案。机器数据需要一种不同的方法。LLM可以回答与IT相关的问题,因为他们已经接受了来自互联网的日志式数据的训练,但他们缺乏IT和安全基础设施系统随时间推移的内在模式或真实行为。 “这就是为什么我们认为,对我们来说,有一个真正的领域特定模型来理解这些不同系统是如何工作的,尤其是这些系统是如何协同工作的,这一点很重要。”
将于今年晚些时候发布的时间序列基础模型旨在捕捉这些内在模式,重点关注系统和时间之间的相关性。该模型不是预测句子中的下一个单词,而是学习预测一系列系统读数中的下个点。通过将大量时间序列数据分解为可管理的片段,该模型生成了捕获底层模式的嵌入。正如GPT预测最有可能的下一个令牌一样,Splunk的模型学习预测下一段运营数据。
但处理时间序列会带来独特的问题。在人类语言中,相同的单词和规则不断重复出现。与人类语言不同,机器数据既具有高度的重复性,又具有高度的不稳定性。在模型正式发布之前很谨慎,没有透露太多关于模型架构的细节,但概述了团队在构建模型时面临的挑战范围。LLM通常在维基百科和书籍等相对稳定和定义明确的数据上进行训练,但机器数据没有规范的参考集。系统指标因工作负载而异,模式也在不断变化。“机器一直在发明新的模式”,这使得确定时间序列数据的“语言”变得更加困难。例如,在温度传感器上训练的模型将看到一组与在网络流量上训练的模式截然不同的模式,在不产生不稳定预测的情况下调和这种多样性可能很困难。
另一个障碍是缺乏标记的数据集。语言模型可以利用精心策划的知识来源,但时间序列模型必须筛选数十亿个未标记的原始信号。多样性和规模的挑战要求团队仔细考虑数据准备,以及哪种架构最适合这些问题。
核心方法是分层:“这几乎就像一个分层模型,你学习一些局部结构,然后你学习这些局部结构中的一些可以拼接在一起得到更大的结构,然后逐渐引入这种粒度和规模。这就是我们将一个相当复杂的问题分解为更容易学习和处理的方法。”
尽管如此,这一过程在很大程度上依赖于数据工程。在训练开始之前,必须清理和组织原始机器数据,这是一项资源密集型和必不可少的工作。这一经历突显了为什么思科Data Fabric是人工智能全景中的关键部分。如果Splunk自己的人工智能团队不得不如此深入地投资于为其基础模型准备数据,那么试图在自己的专有数据上训练模型的企业将面临同样的障碍。通过在数据结构中嵌入联合、过滤和结构工具,思科旨在为客户提供管理这些挑战的工具,而无需重新发明轮子。Splunk计划在今年晚些时候发布其方法论,并将基础模型纳入AI工具包,以便客户可以将相同的技术应用于自己的机器数据。
Splunk作为人工智能的战略支柱
在概述了Data Fabric背后的技术愿景后,公司高管转向了更大的图景:Splunk如何融入公司的未来战略,以及自收购以来发生了什么变化。
思科于2024年3月正式收购Splunk。当时,思科总裁兼首席产品官Jeetu Patel曾承诺不会“搞砸”Splunk,以回应客户对公司可能因新所有权而改变的担忧。在一次新闻发布会上,Patel解释了自收购Splunk以来,思科如何重塑其内部结构,以更好地满足人工智能的需求。今年早些时候,该公司围绕三个优先事项重组了团队——人工智能就绪的数据、面向未来的工作场所和数字弹性——并将其产品工作整合到一个组织中。他说,目标是消除团队之间的低效,确保数据和决策在整个公司内快速流动,使思科和Splunk能够“以启动速度、大规模地发展”。
在简报会上,Patel重申了公司对Splunk的承诺,并指出其技术有可能重新定义人工智能为市场增值的方式。
他说:“Splunk对思科的未来具有极其重要的战略意义。我们将坚定确保通过Splunk加快创新速度。”“你应该期待我们有更高水平的创新。我们所做的一切都将以人工智能为先,我们要解决的问题是确保人工智能成为机器数据的准备。”
与Ai时代前沿合作,将大门向更多普通用户敞开!无论你是对新技术充满好奇心的爱好者,还是希望提升自己技能的职场人士,这里都有适合你的课程和资源。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.