(本文编译自Semiconductor Engineering)
边缘人工智能的普及需要语言模型和芯片架构做出根本性变革,才能使人工智能数据中心之外的推理和学习成为可行选择。
小语言模型(SLM)的最初目标是专门用于推理任务,其参数量约为100亿或更少,而最大的大语言模型(LLM)的参数量则超过万亿。然而,如今小语言模型也越来越多地具备一定的学习能力。由于这类模型是为特定任务量身定制的,它们生成结果所需的时间远少于向人工智能数据中心发送查询、指令或传感器数据并接收响应所需的时间。
SLM并非新生事物。EDA公司多年来一直在探索优化计算软件,科学家们也已将小型模型应用于解决数学和科学问题。但2022年11月ChatGPT的推出,彻底改变了世界对人工智能的认知,而涌入该行业的巨额投资也使得商用语言模型能够在本地运行得更快,同时大幅降低能耗。
在边缘部署人工智能需要对语言模型进行更精细的优化。但业界期望,这些模型最终能为边缘设备实现原本属于物联网的功能。尽管边缘人工智能市场总规模(TAM)增长的预测仍带有推测性,但各方普遍认为其正呈快速增长趋势。《财富商业洞察》估计,到2032年,该市场规模将达到2670亿美元,而2024年仅为270亿美元。反过来,这有望为各种芯片、芯粒以及用于优化这些设计的工具,创造全新的市场机遇。
德勤近期的一项调查发现,2024年投资边缘计算的公司,对边缘人工智能的投资回报比以往更为乐观。德勤指出,嵌入某些设备的人工智能技术可能带来颠覆性变革,因为它无需网络连接。这将对从工业和汽车到消费电子设备(例如安防摄像头)等一系列应用领域产生影响。
在汽车领域,SLM将提升车辆功能,并提升车路协同通信质量。在芯片制造领域,它们将提供实时分析服务。在客户服务领域,它们将减少自动应答服务菜单带来的用户困扰。此外,它们还将推动新型芯片架构的发展,从采用定制处理器和更分布式控制器的多芯片组件,到预加载SLM的芯粒。
当前的挑战在于,如何将这些SLM缩小到可用规模,并开发能够在低功耗预算内加速算法运行的硬件架构,且要保证其在所用领域具备足够的精度。大型人工智能公司已报告称,通过量化技术,通过量化技术已实现数量级的模型压缩,将高精度32位浮点数(FP32)降至4位浮点(FP4)。这种方法之所以有效,是因为并非每个查询、指令或分析都需要筛选海量数据集。如果可以将少量高度相关的数据存储在本地,或者至少存储在靠近终端设备的位置,那么简单的4位精度响应可能已足够。此外,通过使用针对特定数据类型定制的更快处理单元和更具针对性的存储架构,SLM或许能够在不显著降低速度或消耗电池电量的情况下使用16位浮点(FP16)。
ChipAgents首席执行官William Wang表示:“很多人都在关注这些小语言模型。客户既希望模型能为特定任务提供高性能,又要确保做出合理的权衡。或许你可以选择性能稍低但响应速度更快的模型。”
这是实现人工智能另一种思路。“大语言模型本质上是一种蛮力式的方法,它收集所有可用数据,通过各类向量化处理,将其压缩到无数不同的连接中,”Cadence公司人工智能知识产权产品营销总监Jayson Lawley表示,“但如果能不断缩小模型规模并进行压缩,就能更高效地将 AI 功能推向边缘侧。”
英飞凌物联网、消费电子和工业微控制器高级副总裁Steve Tateosian表示:“我们可以突破唤醒词的语言模型局限,将自然语言处理融入到问题中,再通过语言模型生成响应。我们称之为边缘语言模型(ELM),而它的发展方向是从生成式人工智能到通用人工智能,这样模型就可以用于不同的用途。你可以运行多个ELM,训练一个语言模型来询问上下文,另一个模型训练用于视觉识别等。然后,在所有这些模型之上,可能还会有一个智能体,利用这些模型的输入来告知用户一些感兴趣的信息。”
![]()
图1:数据中心LLM与ELM的能耗对比。
(图源:英飞凌)
聚焦特定工作负载
短期内,通用性更强的SLM更具合理性,因为它们可以利用各种处理单元。语言模型几乎处于不断迭代的状态,而硬件的设计、验证和制造需要18到24个月的时间。到那时,专为特定SLM设计的芯片可能已经过时了。
ChipAgents公司的Wang表示:“你想从大模型中提炼基础知识,并将其注入到小模型中。同时还要能修剪权重,如用8位代替16位。所有数据都会被压缩。目前已有成熟算法可实现权重压缩,同时保证一定精度水平。但语言模型和人工智能的发展速度太快,硬件协同设计难度极大。”
其他方法包括在芯片中添加一些可编程性,或使用更通用的芯片进行一些定制配置,使其能与一个或多个聚焦特定场景的SLM实现最佳权衡。
Baya Systems首席商务官Nandan Nayampally表示:“越靠近终端设备,可变现的服务就越多。我们看到,许多客户都对更具体、更定制化的模型提出了需求。LLM实际上是通用知识库,而许多基于LLM开发的SLM更多地与推理而非训练相关。训练需求不会消失,而且从中短期来看还会增长,因为会有更多模型作为SLM的基础模型。但推理环节正在从云端下移到网络边缘,甚至可能下移至终端设备,这种转变非常有趣。”
英飞凌互联安全系统事业部总裁Thomas Rosteck表示:“过去,物联网更像是连接云端的接口,而现在它才真正成为‘万物互联’的形态。设备之间可以互相通信。边缘人工智能通过提供更强大的智能和新的功能集,为物联网设备增添了新的能力。那么,未来会有什么变革吗?答案是肯定的,因为边缘设备的功能正变得越来越强大。边缘和云端之间的分工也必须进行调整,因为云端服务器集群消耗大量能源,我们至少要让数据传输和任务分配变得更合理。”
这并不意味着云端不再有用。模型仍需要训练,大规模的上下文搜索和分析对于边缘设备来说仍然过于复杂。但是,将更多处理任务转移到边缘确实可以降低每次人工智能交互的成本,包括数据传输、云端处理,以及将数据以边缘设备可用格式返回所需的能耗都会减少。
Arteris公司董事长兼首席执行官Charlie Janac表示:“提高效率的方法之一是减少所有这些数据传输的能耗。另一种方法是改进LLM处理数据的方式。因此,这里存在很多创新空间,而且这些创新是必要的,目前来看,所有为人工智能训练和推理而建的数据中心,它们的总能耗是世界迄今为止能源产量的三倍。这催生了小型核反应堆的巨大市场,但解决问题的关键之一是提升整体效率,我们不能仅仅关注处理能力,而必须关注能源效率和能源利用率。”
这种效率提升不仅源于优化运行LLM的系统性能,还源于利用SLM在边缘侧处理更多数据,同时减少需要发送至云端的数据量。“关键在于最大限度地减少数据来回传输,”Synaptics无线事业部高级副总裁兼总经理Venkat Kodavati表示,“但当必须进行传输时,也希望以高效的方式进行,并节省电量。我们已经看到很多小语言模型,它们拥有数亿个参数,我们可以在边缘设备上支持数据传输。但未来模型将能在边缘设备上更高效地运行。不仅可以在边缘侧完成大量推理任务,还能进行部分训练;可以在边缘侧开展定制化训练,再将模型更新至云端。所有这些都将在不久后成为现实。”
![]()
图2:智能边缘的应用案例。
(图源:Synaptics)
能本地则本地,需全局则全局
至少在短期内,结合云端与边缘侧的混合模型将成为大多数场景的常态。本地处理速度更快,但设备仍需要与大型数据中心进行通信,以进行维护、软件更新以及查询无法本地存储的大型数据集(例如半导体制造中的数据集)。事实上,SLM会增加多次测试插入过程中需要处理的数据量。
“我们还会继续使用大语言模型一段时间,”爱德万测试应用研究与技术副总裁Ira Leventhal表示,“小语言模型将专注于一些真正适用的特定应用场景。但从测试的角度来看,如果采用小语言模型,优势在于它们目标明确。但这样一来,测试用例的数量就会减少,从而降低测试过程中的变数,这将简化测试流程。但如果使用大量的小语言模型,就必须同时对所有这些模型进行测试,而且必须并行测试。”
这需要跟踪涉及多个小语言模型的所有交互和依赖关系。小语言模型需要谨慎地集成到复杂的流程中,如半导体测试或检验,否则可能引发问题。
PDF Solutions首席执行官John Kibarian表示:“我们正利用大语言模型的技术能力,但客户希望它能与我们的系统高度适配,进而与他们自身的数据精准匹配并实现本地化部署。他们需要的是完全定制化的解决方案,能够更好地了解他们的环境,并根据现有功能不断更新。他们还希望人工智能能够增强现有知识,以便将知识捕获并传承给下一代工程师。这将引领我们的行业迈向前所未有的高度,同时也不会遗忘过去积累的经验。他们正在寻找这种小型化、本地训练的能力,通过学习他们过去所有的生产、分析、测试程序以及数据处理方式,有效地将经验知识在一定程度上整合起来,从而更快地在整个组织内推广这种能力。”
更多功能,新的挑战
SLM是一个宽泛的统称,最终将细分为多个子集。例如,目前已有多模态模型、视频SLM,随着边缘设备功能的增加,未来还会出现其他类型的SLM。但目前尚不清楚的是,这些SLM将如何交互,如何以有效的方式构建这些交互,以及在无法构建交互时如何最大限度地减少交互。此外,如果允许这些设备自主学习,则需要某种形式的监管来确保其可靠性。
结语
在不久的将来,精度与性能之间的权衡仍将是边缘侧及面向边缘侧开发的SLM的核心议题。但提供边缘AI服务的公司可以利用其在云端LLM方面积累的经验,加速SLM的部署。数据传输距离越短,需要发送到云端的数据量越少,响应速度就越快。而SLM的功能定义越精准,其整体优化速度也会越快。
SLM正快速兴起,并在各个方向突破边界。有些SLM将支持多模态,而有些则专注于特定模态,如视觉或自然语言音频。无论如何,它们都将定义并重新定义人类与机器,以及机器之间的交互方式。所有这些都将发生在数据源头附近,而这一切都将在更靠近数据源、更贴近人们工作与日常生活所用工具和设备的场景中发生。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.