集成电路(IC)与系统级芯片(SoC)正整合多种处理单元,既能优化当前工作负载,也能为未来技术发展预留适配空间。
过去,人们只需在专用集成电路(ASIC)、现场可编程门阵列(FPGA)或数字信号处理器(DSP)之间做简单选择,如今则演变为多种处理器类型与架构的组合方案,涵盖不同层级的可编程性与定制化能力。运算速度固然至关重要,但技术迭代速度如此迅猛,以至于当下的最优解决方案,可能在芯片完成流片量产时就已落伍。一旦出现新的人工智能模型、内存标准或其他技术升级,相较于成本高昂的芯片重新流片,可编程组件无疑是更简便的应对方案——这甚至可以包括直接替换一颗可编程芯粒。
芯片支持现场重编程或重构的能力,让设计人员得以重新分配工作负载,并为消费者提供硬件级升级,无需用户购置昂贵的新设备。现场可编程门阵列(FPGA)与数字信号处理器(DSP)是目前最常见的两类可编程组件,但市场上也存在其他同类产品。
“最直观的例子就是图形处理器(GPU),”Arteris产品管理与营销副总裁安迪·奈廷格尔表示,“长期以来,GPU凭借其高度并行的可编程架构,能够支持各类运算任务。它的运算效率或许并非最优,但就‘通过软件而非硬件元件驱动运算’这一点而言,GPU与现场可编程门阵列(FPGA)的特性最为接近。”
尽管GPU具备高度可编程性,但其功耗也相当惊人,因此设计人员在开发嵌入式人工智能应用时,会倾向于选择其他解决方案。一种常用方案是:采用功能相对固定的神经网络处理器(NPU),搭配一颗可编程数字信号处理器(DSP)。
“英伟达的GPU采用CUDA C++编程语言与基于线程束的编程模型,依赖于硬件密集型缓存存储系统,”Quadric首席营销官史蒂夫·罗迪指出,“这种架构让程序员无需关注数据如何映射到内存,只需交由硬件处理底层细节。DSP同样支持C/C++编程,且功耗远低于GPU——原因在于DSP通常采用片上静态随机存取存储器(SRAM),而非缓存;同时通过直接内存访问(DMA)技术传输数据,而非频繁调取缓存行。不过,DSP在人工智能运算性能上存在短板:它无法高效执行矩阵运算,数据并行处理能力也较为有限。而神经网络处理器(NPU)擅长处理人工智能核心的矩阵运算,却又缺乏可编程性。我们研发的通用型神经网络处理器(GPNPU),则融合了NPU的矩阵运算效率与DSP的低功耗可编程特性,打造出一款适用于嵌入式人工智能场景的最优处理器。”
Synaptics最新推出的嵌入式人工智能处理器,集成了支持Helium DSP扩展指令集的 Arm 中央处理器(CPU)与微控制器(MCU),以及谷歌基于精简指令集第五代(RISC-V)架构的Coral神经网络处理器(NPU)。Blaize则采用自主研发的可编程图流处理器(GSP),并依托Arteris的片上网络(NoC)知识产权(IP),面向多模态人工智能应用场景提供解决方案。
数据中心同样具备多种可编程方案可选。“数据处理器(DPU)是一种智能网络接口,可用于在系统不同组件之间转发数据包,”奈廷格尔补充道,“数据中心领域还部署了P4可编程交换机,这类交换机专为可编程数据包处理流水线而设计。此外,还有可重构阵列——粗粒度可重构架构(CGRA)能够承担特定运算任务,它支持基于软件的高层抽象重构,抽象层级高于FPGA,因此可在灵活性、运算效率与流水线人工智能推理任务之间实现平衡。”
粗粒度可重构架构(CGRA)是一项新兴技术,其定位介于FPGA与GPU之间,能够提供更均衡的混合运算方案。“这或许是当前各类技术融合趋势中最具潜力的方向,”奈廷格尔评价道,“该技术目前仍处于实验阶段:部分相关技术已达到可商用的基准水平,而另一些新技术虽展现出应用前景,但尚未经过全面验证。未来,CGRA有望在其专属应用领域内,成为具有变革性意义的技术。我始终主张,针对特定任务采用‘FPGA+GPU+XPU’的混合架构,这或许是最契合当下需求的解决方案。”
粗粒度可重构架构(CGRA)与现场可编程模拟阵列(FPAA),将可重构计算的灵活性拓展至传统数字逻辑之外的领域。“这一市场目前仍处于早期阶段,其市场需求规模与成熟度尚存在不确定性,”Altera业务管理部主管文卡特·亚达瓦利表示,“尤其是在生态系统支持、工具链成熟度,以及与现有FPGA和ASIC设计流程的兼容性等方面,仍有诸多问题亟待解决。”
可编程性、可重构性与定制化的区别
芯片可以是可编程的、可重构的,也可以两者兼具——现场可编程门阵列(FPGA)就是典型的“双特性芯片”。
“FPGA的可编程性体现在:整个硬件架构本身支持编程,这意味着我们可以完全改变FPGA上的芯片设计方案,”Baya Systems首席商务官南丹·纳亚姆帕利解释道,“另一层含义则是:‘芯片上的各类组件与互联架构已预先集成,我们可通过编程配置各组件的带宽分配、延迟参数,并设置任务优先级。’这同样属于可编程的范畴,但其灵活性相对有限——因为这种操作并未彻底改变芯片功能,只是对资源进行了重新划分与配置。”
以中央处理器(CPU)为例:部分CPU兼具可编程性与可配置性,但能力范围存在明确边界。“从广义可编程性来看,CPU领域就有不少典型案例,比如基于精简指令集第五代(RISC-V)架构或指令集架构(ISA)的可编程CPU,同时也涌现出一些新型架构技术,”亚达瓦利说道,“FPGA能够提供极致的灵活性,支持部署并运行各类工作负载。而RISC-V架构则适用于一些设备级的配置场景——例如通过简单的参数配置,协助其他芯片协同工作;也可以是一款具备有限可编程能力的RISC-V处理器。”
极致的可编程性始终是FPGA的核心优势。“设计人员可以按需修改输入输出接口(I/O)、调整芯片架构、优化所有运算环节,”亚达瓦利强调,“其他类型的可编程技术,则更多聚焦于特定场景的有限应用。比如,针对一款标准芯片产品,如何通过技术手段增加其灵活性?这类方案通常只能实现一定程度的可配置性,而非完全可编程。”
此外,还可通过电源架构实现芯片定制化。“芯片定制化主要有两种实现路径,”Movellus首席执行官莫·费萨尔介绍道,“第一种是为每颗芯片量身定制专属电源网格与优化方案。假设有一百万颗芯片,搭配一百万种不同的封装方案,那么每颗芯片都具备独一无二的特性。不过,我们也可以让电源架构具备一定的可编程性,使其适配不同的封装方案——因为每种封装的谐振特性都存在差异。只要电源架构的可编程性足够强,就能抵消不同封装带来的性能差异。这一技术的收益相当可观:封装导致的电压跌落问题,会直接决定芯片的最低工作电压(Vmin),进而影响芯片功耗、散热设计等一系列关键指标。”
人工智能与模拟技术兴起对DSP的影响
现代系统级芯片(SoC)正经历高速迭代,其中一个显著变化是:芯片需要处理的模拟信号内容日益增多,这无疑给数字信号处理器(DSP)带来了额外的运算负担。
“如今的芯片早已不局限于数字功能——为满足5G通信、汽车雷达、物联网设备等应用需求,芯片集成了射频(RF)、数模混合信号与传感器接口等模块,”楷登电子(Cadence)产品管理与营销高级总监、计算机视觉/人工智能产品负责人阿莫尔·博卡尔指出,“从功能角度来看,这无疑是一大进步,但也意味着DSP需要处理的信号不再是理想的数字信号。现实世界中的模拟信号往往伴随噪声、失真与波动,因此DSP必须投入更多算力进行信号净化。这一需求推动了智能校准与补偿算法的快速发展。”
受此影响,DSP的角色定位也随之拓展。“它不再仅仅是执行数值运算的工具,而是具备了‘模拟感知处理’能力,”博卡尔补充道,“例如通过自适应滤波技术减少信号干扰、对射频功率放大器进行线性化处理、修正模数转换器(ADC)与数模转换器(DAC)的误差等。这些新增功能提升了芯片设计复杂度,因此DSP架构正朝着高度并行化方向发展,且往往集成专用加速器,以满足日益增长的性能需求。”
数控模拟技术让DSP具备了更强的可编程性。“如今,只要芯片具备基础的数据流架构,即便核心运算单元是模拟DSP,也可以在信号传输路径中抽取部分信号并转换为数字信号,”新思科技(Synopsys)Ansys 产品营销总监马克·斯温嫩表示,“设计人员可对这些数字信号执行各类数学算法分析与软件编程,进行全面的数字化运算与逻辑推演。在确定反馈信号参数后,再将其转换回模拟信号并输入芯片。这种技术被称为数控模拟技术,它将可编程性、软件与数字电路融入信号反馈流程。尽管其运算速度与简洁性不及纯模拟方案,但可编程性更强,软件控制也更为灵活。”
展望未来,多项值得关注的技术趋势正在显现。“人工智能正开始在解决SoC模拟内容增多的难题中发挥重要作用,”博卡尔说道,“传统上,DSP依赖固定模型修正模拟信号的缺陷,但在实际应用环境变化时,这类模型往往难以胜任。而人工智能的优势正在于此:机器学习技术能够从设备实际运行数据中学习规律,动态调整校准参数,实时预测模数转换器(ADC)或射频链路的非线性失真,并即时进行误差修正。”
人工智能还让DSP具备了更强的自适应性。“相比静态滤波器或均衡器,人工智能驱动的算法能够随着环境条件变化持续优化自身性能——无论是温度波动、元件老化还是信号干扰,都能实时适配,”博卡尔强调,“这一点对于5G射频设备、汽车传感器等运行环境多变的系统而言,尤为关键。”
业内人士普遍认为,未来的技术方案将是经典算法与人工智能的融合。“我们曾与汽车领域的客户探讨过DSP与人工智能的分工问题,”弗劳恩霍夫应用研究促进协会(Fraunhofer IIS)自适应系统工程部门高效电子学系主任安迪·海内希表示,“以雷达系统为例,其运算流程需要执行三次不同的快速傅里叶变换(FFT)。目前已有部分方案尝试用人工智能取代FFT运算,但我们坚信,传统FFT算法在功耗效率上更具优势——因为FFT算法可实现高度优化,而若要通过人工智能达到同等运算精度,则需要构建规模庞大的神经网络模型。此外,FFT算法的运算过程更具确定性与可解释性。因此,我们认为理想方案是:由FFT算法承担基础信号处理任务,再由人工智能完成目标识别等上层任务。但要让人工智能完全取代传统DSP的所有功能,目前来看并不现实。”
在信号调理环节,先用传统DSP算法执行FFT等基础处理步骤是更为合理的选择。“短期内可能会出现‘人工智能全面替代传统算法’的趋势,但最终市场必然会回归‘传统+人工智能’的混合方案,”海内希预测,“而要找到二者的最佳结合点——即明确哪些任务适合传统算法,哪些任务适合人工智能——还需要经历多轮技术迭代与验证。”
FPGA内置的DSP切片与人工智能引擎
Altera的亚达瓦利指出,FPGA内置的DSP切片是一种可重构运算单元,经过技术迭代,其运算效率已大幅提升,不仅支持定点与浮点运算,还能胜任人工智能与机器学习工作负载。
除DSP切片外,许多现代FPGA还集成了人工智能引擎——本质上是一种超长指令字(VLIW)架构的单指令多数据(SIMD)处理器。这种集成架构的一大优势在于:能够让FPGA实现数据流式数字信号处理。“不同于‘独立DSP+FPGA’的传统架构——即由FPGA负责从ADC/DAC采集数据,再交由DSP处理——如今的FPGA已内置DSP切片或人工智能引擎,”亚达瓦利介绍道,“这是我们近年来推动的技术革新,将矢量计算引擎集成到单一芯片中,实现了功能的高度整合。”
矢量处理器(VPU)与GPU的架构类似,均依靠多核心并行执行运算任务。“也可以类比x86架构——它有自身的核心架构,”亚达瓦利补充道,“而矢量处理器采用截然不同的架构与指令集,专门针对线性代数与矩阵运算进行优化。”
人工智能引擎能够承接部分传统DSP的工作负载,但并非全部。“乘累加运算(MAC)适用于多种运算场景,因此可编程逻辑器件中仍保留了DSP切片,”超威半导体(AMD)自适应与嵌入式产品事业部产品营销高级经理罗布·鲍尔表示,“但我们在芯片中新增了人工智能引擎阵列,用于承担信道化、FFT、有限长单位冲激响应(FIR)滤波等算力密集型任务,目前已落地多个应用案例。航空航天/国防与测试/测量领域对该技术的接受度尤其高,正是看中了它的性能优势。”
![]()
图1:集成人工智能引擎的自适应SoC架构,兼具DSP运算能力 来源: AMD)
从射频测试的角度来看,将ADC与DAC集成到FPGA同一芯片中具有重要意义。“这种集成架构能够有效降低系统测试的延迟,”鲍尔解释道,“不同于部分方案采用的‘独立芯粒+FPGA’架构——芯粒与FPGA之间仍需进行数据传输,而将ADC直接集成到可编程逻辑芯片的同一晶圆上,能够带来显著的性能提升。”
芯粒与嵌入式FPGA:灵活性的两大解决方案
面对新兴、未知且快速演进的应用场景,可编程芯片允许工程师在设备部署后,对其配置进行远程更新。而芯粒技术则提供了另一种灵活性解决方案。
“芯粒可集成多种前沿技术,特别适用于应用需求频繁变化的场景——设计人员可直接替换集成新协议或新标准的芯粒,”Arteris的奈廷格尔表示,“这在一定程度上削弱了FPGA的技术优势,因为企业可以这样规划:‘在下一批次生产中,我们将采用多芯粒集成SoC架构,只需替换其中一颗芯粒——例如升级为最新的安全芯粒,而其他芯粒保持不变。’不过,这种方案需要在功耗、性能与原型开发效率之间进行权衡。一种常见的策略是:先用FPGA完成原型验证,再用专用芯粒替换FPGA,实现产品的量产落地。芯粒无疑将成为未来芯片架构的重要组成部分,它为企业提供了更多的技术选型空间与产品迭代时间窗口。甚至可以设想这样的方案:在芯粒中集成一颗FPGA,待产品技术成熟后,再将其替换为优化后的专用处理单元。”
这意味着:若芯粒中集成了FPGA,则可对该芯粒进行重编程;而由于芯片的其他部分保持不变,因此无需对整个SoC重新进行验证。
嵌入式FPGA(eFPGA)是另一种提升芯片灵活性的方案,但由于其内部集成了重构控制电路,会产生一定的面积损耗。“对于习惯用最小面积实现ASIC逻辑的设计人员而言,若将同样的设计移植到FPGA上,芯片面积会大幅增加,”快客逻辑(QuickLogic)知识产权(IP)销售副总裁安迪·雅罗斯指出,“因此设计人员需要审慎规划:‘仅在灵活性至关重要的模块采用eFPGA。’面积损耗同时会影响芯片成本。目前eFPGA的典型应用场景是I/O接口灵活性优化——毕竟没有企业愿意为了接口升级而重新流片。例如,当新建数据中心对背板接口规格进行调整时,企业无需重新设计ASIC,只需通过eFPGA即可实现与不同数据中心或背板的兼容对接。”
此外,eFPGA还能帮助企业应对未知的技术需求。“有些需求目前尚不明确,但未来必然会出现,”新思科技(Synopsys)移动、汽车与消费电子IP产品管理执行总监赫兹·萨尔表示,“一旦需求明确,企业就需要快速推向市场;同时,为保证产品可靠性,芯片还需具备低功耗特性。我认为eFPGA适用于部分特定功能场景,但并非万能解决方案。当前市场因这些未知需求而充满不确定性,企业在做技术选型时,必须制定A、B、C三套备选方案,以应对随时可能出现的技术变革。根据我的观察,企业正加快芯片流片节奏——在移动领域,这种策略的落地难度较低,因为产品迭代周期较短;但在机器人等新兴市场,情况则更为复杂。例如,当企业需要将内存标准从低功耗双倍数据率5(LPDDR5)升级至LPDDR6,或晶圆代工厂将制程节点从A工艺切换至B工艺,而原工艺已停止供应时,企业能否快速完成技术迁移,就成为了核心挑战。”
内存架构是区分可编程逻辑芯片与固定逻辑芯片的关键因素。“专用集成电路(ASIC)可通过定制化内存层级架构,满足目标人工智能工作负载的需求;而FPGA则凭借灵活性,适用于多样化应用场景,”Rambus公司杰出发明家兼院士史蒂夫·吴表示,“这种‘通用性与性能’的权衡会直接影响芯片效率,尤其是在人工智能模型规模持续扩大、内存带宽成为性能瓶颈的当下,这一矛盾更为突出。”
结语
在人工智能全面普及、机器人技术快速崛起、6G技术需求日益明确的技术变革期,可编程性帮助企业紧跟技术趋势与消费需求——即便这意味着要牺牲专用集成电路(ASIC)的部分运算效率。
“我喜欢这样描述当前的技术趋势:产品正朝着‘软件定义、人工智能驱动、芯片赋能’的方向发展,”西门子EDA半导体行业副总裁迈克尔·芒西表示,“软件的运行离不开硬件载体,必须依托芯片才能实现功能。但产品设计流程已发生根本性转变:在传统模式下,企业通常先完成芯片开发,再启动软件开发工作;而如今,产品的大部分功能与特性都由软件定义,因此软件开发周期大幅提前。此外,企业还希望通过产品上市后的软件更新实现商业变现——简言之,就是通过软件升级为产品新增功能、优化体验。这就要求企业在芯片架构设计阶段,就必须统筹规划这些需求。”
但硬件必须具备支持软件迭代的能力。以苹果手机(iPhone)为例:“当苹果移动操作系统(iOS)16发布后,用户将其安装到手机上,会发现手机体验得到显著提升——麦克风降噪效果更好、拍照画质更清晰。这些优化均依托可更新的软件与DSP算法实现。同时,电池续航时间也有所延长——这是因为苹果通过软件调整了芯片的功耗曲线,并升级了电池管理系统算法,从而延长了电池使用寿命。而这一切的实现,都离不开‘产品全架构支持软件更新’的设计理念。如今,特斯拉等企业也开始为汽车提供软件升级服务,为车辆新增功能——这无疑为行业发展指明了方向。正因如此,企业正加大对编译技术的投入——毕竟软件开发进程已大幅提前,甚至需要在芯片样片问世前,就启动软硬件协同设计工作。”
原文:
https://semiengineering.com/programmable-chips-evolve-for-shifting-needs
EETOP创芯大讲堂芯片课程推荐
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.