可编程芯片：在迭代中掌控未来芯片话语权！|信号|dsp|fpga|asic

分享至

集成电路（IC）与系统级芯片（SoC）正整合多种处理单元，既能优化当前工作负载，也能为未来技术发展预留适配空间。

过去，人们只需在专用集成电路（ASIC）、现场可编程门阵列（FPGA）或数字信号处理器（DSP）之间做简单选择，如今则演变为多种处理器类型与架构的组合方案，涵盖不同层级的可编程性与定制化能力。运算速度固然至关重要，但技术迭代速度如此迅猛，以至于当下的最优解决方案，可能在芯片完成流片量产时就已落伍。一旦出现新的人工智能模型、内存标准或其他技术升级，相较于成本高昂的芯片重新流片，可编程组件无疑是更简便的应对方案——这甚至可以包括直接替换一颗可编程芯粒。

芯片支持现场重编程或重构的能力，让设计人员得以重新分配工作负载，并为消费者提供硬件级升级，无需用户购置昂贵的新设备。现场可编程门阵列（FPGA）与数字信号处理器（DSP）是目前最常见的两类可编程组件，但市场上也存在其他同类产品。

“最直观的例子就是图形处理器（GPU），”Arteris产品管理与营销副总裁安迪·奈廷格尔表示，“长期以来，GPU凭借其高度并行的可编程架构，能够支持各类运算任务。它的运算效率或许并非最优，但就‘通过软件而非硬件元件驱动运算’这一点而言，GPU与现场可编程门阵列（FPGA）的特性最为接近。”

尽管GPU具备高度可编程性，但其功耗也相当惊人，因此设计人员在开发嵌入式人工智能应用时，会倾向于选择其他解决方案。一种常用方案是：采用功能相对固定的神经网络处理器（NPU），搭配一颗可编程数字信号处理器（DSP）。

“英伟达的GPU采用CUDA C++编程语言与基于线程束的编程模型，依赖于硬件密集型缓存存储系统，”Quadric首席营销官史蒂夫·罗迪指出，“这种架构让程序员无需关注数据如何映射到内存，只需交由硬件处理底层细节。DSP同样支持C/C++编程，且功耗远低于GPU——原因在于DSP通常采用片上静态随机存取存储器（SRAM），而非缓存；同时通过直接内存访问（DMA）技术传输数据，而非频繁调取缓存行。不过，DSP在人工智能运算性能上存在短板：它无法高效执行矩阵运算，数据并行处理能力也较为有限。而神经网络处理器（NPU）擅长处理人工智能核心的矩阵运算，却又缺乏可编程性。我们研发的通用型神经网络处理器（GPNPU），则融合了NPU的矩阵运算效率与DSP的低功耗可编程特性，打造出一款适用于嵌入式人工智能场景的最优处理器。”

Synaptics最新推出的嵌入式人工智能处理器，集成了支持Helium DSP扩展指令集的 Arm 中央处理器（CPU）与微控制器（MCU），以及谷歌基于精简指令集第五代（RISC-V）架构的Coral神经网络处理器（NPU）。Blaize则采用自主研发的可编程图流处理器（GSP），并依托Arteris的片上网络（NoC）知识产权（IP），面向多模态人工智能应用场景提供解决方案。

数据中心同样具备多种可编程方案可选。“数据处理器（DPU）是一种智能网络接口，可用于在系统不同组件之间转发数据包，”奈廷格尔补充道，“数据中心领域还部署了P4可编程交换机，这类交换机专为可编程数据包处理流水线而设计。此外，还有可重构阵列——粗粒度可重构架构（CGRA）能够承担特定运算任务，它支持基于软件的高层抽象重构，抽象层级高于FPGA，因此可在灵活性、运算效率与流水线人工智能推理任务之间实现平衡。”

粗粒度可重构架构（CGRA）是一项新兴技术，其定位介于FPGA与GPU之间，能够提供更均衡的混合运算方案。“这或许是当前各类技术融合趋势中最具潜力的方向，”奈廷格尔评价道，“该技术目前仍处于实验阶段：部分相关技术已达到可商用的基准水平，而另一些新技术虽展现出应用前景，但尚未经过全面验证。未来，CGRA有望在其专属应用领域内，成为具有变革性意义的技术。我始终主张，针对特定任务采用‘FPGA+GPU+XPU’的混合架构，这或许是最契合当下需求的解决方案。”

粗粒度可重构架构（CGRA）与现场可编程模拟阵列（FPAA），将可重构计算的灵活性拓展至传统数字逻辑之外的领域。“这一市场目前仍处于早期阶段，其市场需求规模与成熟度尚存在不确定性，”Altera业务管理部主管文卡特·亚达瓦利表示，“尤其是在生态系统支持、工具链成熟度，以及与现有FPGA和ASIC设计流程的兼容性等方面，仍有诸多问题亟待解决。”

可编程性、可重构性与定制化的区别

芯片可以是可编程的、可重构的，也可以两者兼具——现场可编程门阵列（FPGA）就是典型的“双特性芯片”。

“FPGA的可编程性体现在：整个硬件架构本身支持编程，这意味着我们可以完全改变FPGA上的芯片设计方案，”Baya Systems首席商务官南丹·纳亚姆帕利解释道，“另一层含义则是：‘芯片上的各类组件与互联架构已预先集成，我们可通过编程配置各组件的带宽分配、延迟参数，并设置任务优先级。’这同样属于可编程的范畴，但其灵活性相对有限——因为这种操作并未彻底改变芯片功能，只是对资源进行了重新划分与配置。”

以中央处理器（CPU）为例：部分CPU兼具可编程性与可配置性，但能力范围存在明确边界。“从广义可编程性来看，CPU领域就有不少典型案例，比如基于精简指令集第五代（RISC-V）架构或指令集架构（ISA）的可编程CPU，同时也涌现出一些新型架构技术，”亚达瓦利说道，“FPGA能够提供极致的灵活性，支持部署并运行各类工作负载。而RISC-V架构则适用于一些设备级的配置场景——例如通过简单的参数配置，协助其他芯片协同工作；也可以是一款具备有限可编程能力的RISC-V处理器。”

极致的可编程性始终是FPGA的核心优势。“设计人员可以按需修改输入输出接口（I/O）、调整芯片架构、优化所有运算环节，”亚达瓦利强调，“其他类型的可编程技术，则更多聚焦于特定场景的有限应用。比如，针对一款标准芯片产品，如何通过技术手段增加其灵活性？这类方案通常只能实现一定程度的可配置性，而非完全可编程。”

此外，还可通过电源架构实现芯片定制化。“芯片定制化主要有两种实现路径，”Movellus首席执行官莫·费萨尔介绍道，“第一种是为每颗芯片量身定制专属电源网格与优化方案。假设有一百万颗芯片，搭配一百万种不同的封装方案，那么每颗芯片都具备独一无二的特性。不过，我们也可以让电源架构具备一定的可编程性，使其适配不同的封装方案——因为每种封装的谐振特性都存在差异。只要电源架构的可编程性足够强，就能抵消不同封装带来的性能差异。这一技术的收益相当可观：封装导致的电压跌落问题，会直接决定芯片的最低工作电压（Vmin），进而影响芯片功耗、散热设计等一系列关键指标。”

人工智能与模拟技术兴起对DSP的影响

现代系统级芯片（SoC）正经历高速迭代，其中一个显著变化是：芯片需要处理的模拟信号内容日益增多，这无疑给数字信号处理器（DSP）带来了额外的运算负担。

“如今的芯片早已不局限于数字功能——为满足5G通信、汽车雷达、物联网设备等应用需求，芯片集成了射频（RF）、数模混合信号与传感器接口等模块，”楷登电子（Cadence）产品管理与营销高级总监、计算机视觉/人工智能产品负责人阿莫尔·博卡尔指出，“从功能角度来看，这无疑是一大进步，但也意味着DSP需要处理的信号不再是理想的数字信号。现实世界中的模拟信号往往伴随噪声、失真与波动，因此DSP必须投入更多算力进行信号净化。这一需求推动了智能校准与补偿算法的快速发展。”

受此影响，DSP的角色定位也随之拓展。“它不再仅仅是执行数值运算的工具，而是具备了‘模拟感知处理’能力，”博卡尔补充道，“例如通过自适应滤波技术减少信号干扰、对射频功率放大器进行线性化处理、修正模数转换器（ADC）与数模转换器（DAC）的误差等。这些新增功能提升了芯片设计复杂度，因此DSP架构正朝着高度并行化方向发展，且往往集成专用加速器，以满足日益增长的性能需求。”

数控模拟技术让DSP具备了更强的可编程性。“如今，只要芯片具备基础的数据流架构，即便核心运算单元是模拟DSP，也可以在信号传输路径中抽取部分信号并转换为数字信号，”新思科技（Synopsys）Ansys 产品营销总监马克·斯温嫩表示，“设计人员可对这些数字信号执行各类数学算法分析与软件编程，进行全面的数字化运算与逻辑推演。在确定反馈信号参数后，再将其转换回模拟信号并输入芯片。这种技术被称为数控模拟技术，它将可编程性、软件与数字电路融入信号反馈流程。尽管其运算速度与简洁性不及纯模拟方案，但可编程性更强，软件控制也更为灵活。”

展望未来，多项值得关注的技术趋势正在显现。“人工智能正开始在解决SoC模拟内容增多的难题中发挥重要作用，”博卡尔说道，“传统上，DSP依赖固定模型修正模拟信号的缺陷，但在实际应用环境变化时，这类模型往往难以胜任。而人工智能的优势正在于此：机器学习技术能够从设备实际运行数据中学习规律，动态调整校准参数，实时预测模数转换器（ADC）或射频链路的非线性失真，并即时进行误差修正。”

人工智能还让DSP具备了更强的自适应性。“相比静态滤波器或均衡器，人工智能驱动的算法能够随着环境条件变化持续优化自身性能——无论是温度波动、元件老化还是信号干扰，都能实时适配，”博卡尔强调，“这一点对于5G射频设备、汽车传感器等运行环境多变的系统而言，尤为关键。”

业内人士普遍认为，未来的技术方案将是经典算法与人工智能的融合。“我们曾与汽车领域的客户探讨过DSP与人工智能的分工问题，”弗劳恩霍夫应用研究促进协会（Fraunhofer IIS）自适应系统工程部门高效电子学系主任安迪·海内希表示，“以雷达系统为例，其运算流程需要执行三次不同的快速傅里叶变换（FFT）。目前已有部分方案尝试用人工智能取代FFT运算，但我们坚信，传统FFT算法在功耗效率上更具优势——因为FFT算法可实现高度优化，而若要通过人工智能达到同等运算精度，则需要构建规模庞大的神经网络模型。此外，FFT算法的运算过程更具确定性与可解释性。因此，我们认为理想方案是：由FFT算法承担基础信号处理任务，再由人工智能完成目标识别等上层任务。但要让人工智能完全取代传统DSP的所有功能，目前来看并不现实。”

在信号调理环节，先用传统DSP算法执行FFT等基础处理步骤是更为合理的选择。“短期内可能会出现‘人工智能全面替代传统算法’的趋势，但最终市场必然会回归‘传统+人工智能’的混合方案，”海内希预测，“而要找到二者的最佳结合点——即明确哪些任务适合传统算法，哪些任务适合人工智能——还需要经历多轮技术迭代与验证。”

FPGA内置的DSP切片与人工智能引擎

Altera的亚达瓦利指出，FPGA内置的DSP切片是一种可重构运算单元，经过技术迭代，其运算效率已大幅提升，不仅支持定点与浮点运算，还能胜任人工智能与机器学习工作负载。

除DSP切片外，许多现代FPGA还集成了人工智能引擎——本质上是一种超长指令字（VLIW）架构的单指令多数据（SIMD）处理器。这种集成架构的一大优势在于：能够让FPGA实现数据流式数字信号处理。“不同于‘独立DSP+FPGA’的传统架构——即由FPGA负责从ADC/DAC采集数据，再交由DSP处理——如今的FPGA已内置DSP切片或人工智能引擎，”亚达瓦利介绍道，“这是我们近年来推动的技术革新，将矢量计算引擎集成到单一芯片中，实现了功能的高度整合。”

矢量处理器（VPU）与GPU的架构类似，均依靠多核心并行执行运算任务。“也可以类比x86架构——它有自身的核心架构，”亚达瓦利补充道，“而矢量处理器采用截然不同的架构与指令集，专门针对线性代数与矩阵运算进行优化。”

人工智能引擎能够承接部分传统DSP的工作负载，但并非全部。“乘累加运算（MAC）适用于多种运算场景，因此可编程逻辑器件中仍保留了DSP切片，”超威半导体（AMD）自适应与嵌入式产品事业部产品营销高级经理罗布·鲍尔表示，“但我们在芯片中新增了人工智能引擎阵列，用于承担信道化、FFT、有限长单位冲激响应（FIR）滤波等算力密集型任务，目前已落地多个应用案例。航空航天/国防与测试/测量领域对该技术的接受度尤其高，正是看中了它的性能优势。”

图1：集成人工智能引擎的自适应SoC架构，兼具DSP运算能力来源： AMD）

从射频测试的角度来看，将ADC与DAC集成到FPGA同一芯片中具有重要意义。“这种集成架构能够有效降低系统测试的延迟，”鲍尔解释道，“不同于部分方案采用的‘独立芯粒+FPGA’架构——芯粒与FPGA之间仍需进行数据传输，而将ADC直接集成到可编程逻辑芯片的同一晶圆上，能够带来显著的性能提升。”

芯粒与嵌入式FPGA：灵活性的两大解决方案

面对新兴、未知且快速演进的应用场景，可编程芯片允许工程师在设备部署后，对其配置进行远程更新。而芯粒技术则提供了另一种灵活性解决方案。

“芯粒可集成多种前沿技术，特别适用于应用需求频繁变化的场景——设计人员可直接替换集成新协议或新标准的芯粒，”Arteris的奈廷格尔表示，“这在一定程度上削弱了FPGA的技术优势，因为企业可以这样规划：‘在下一批次生产中，我们将采用多芯粒集成SoC架构，只需替换其中一颗芯粒——例如升级为最新的安全芯粒，而其他芯粒保持不变。’不过，这种方案需要在功耗、性能与原型开发效率之间进行权衡。一种常见的策略是：先用FPGA完成原型验证，再用专用芯粒替换FPGA，实现产品的量产落地。芯粒无疑将成为未来芯片架构的重要组成部分，它为企业提供了更多的技术选型空间与产品迭代时间窗口。甚至可以设想这样的方案：在芯粒中集成一颗FPGA，待产品技术成熟后，再将其替换为优化后的专用处理单元。”

这意味着：若芯粒中集成了FPGA，则可对该芯粒进行重编程；而由于芯片的其他部分保持不变，因此无需对整个SoC重新进行验证。

嵌入式FPGA（eFPGA）是另一种提升芯片灵活性的方案，但由于其内部集成了重构控制电路，会产生一定的面积损耗。“对于习惯用最小面积实现ASIC逻辑的设计人员而言，若将同样的设计移植到FPGA上，芯片面积会大幅增加，”快客逻辑（QuickLogic）知识产权（IP）销售副总裁安迪·雅罗斯指出，“因此设计人员需要审慎规划：‘仅在灵活性至关重要的模块采用eFPGA。’面积损耗同时会影响芯片成本。目前eFPGA的典型应用场景是I/O接口灵活性优化——毕竟没有企业愿意为了接口升级而重新流片。例如，当新建数据中心对背板接口规格进行调整时，企业无需重新设计ASIC，只需通过eFPGA即可实现与不同数据中心或背板的兼容对接。”

此外，eFPGA还能帮助企业应对未知的技术需求。“有些需求目前尚不明确，但未来必然会出现，”新思科技（Synopsys）移动、汽车与消费电子IP产品管理执行总监赫兹·萨尔表示，“一旦需求明确，企业就需要快速推向市场；同时，为保证产品可靠性，芯片还需具备低功耗特性。我认为eFPGA适用于部分特定功能场景，但并非万能解决方案。当前市场因这些未知需求而充满不确定性，企业在做技术选型时，必须制定A、B、C三套备选方案，以应对随时可能出现的技术变革。根据我的观察，企业正加快芯片流片节奏——在移动领域，这种策略的落地难度较低，因为产品迭代周期较短；但在机器人等新兴市场，情况则更为复杂。例如，当企业需要将内存标准从低功耗双倍数据率5（LPDDR5）升级至LPDDR6，或晶圆代工厂将制程节点从A工艺切换至B工艺，而原工艺已停止供应时，企业能否快速完成技术迁移，就成为了核心挑战。”

内存架构是区分可编程逻辑芯片与固定逻辑芯片的关键因素。“专用集成电路（ASIC）可通过定制化内存层级架构，满足目标人工智能工作负载的需求；而FPGA则凭借灵活性，适用于多样化应用场景，”Rambus公司杰出发明家兼院士史蒂夫·吴表示，“这种‘通用性与性能’的权衡会直接影响芯片效率，尤其是在人工智能模型规模持续扩大、内存带宽成为性能瓶颈的当下，这一矛盾更为突出。”

结语

在人工智能全面普及、机器人技术快速崛起、6G技术需求日益明确的技术变革期，可编程性帮助企业紧跟技术趋势与消费需求——即便这意味着要牺牲专用集成电路（ASIC）的部分运算效率。

“我喜欢这样描述当前的技术趋势：产品正朝着‘软件定义、人工智能驱动、芯片赋能’的方向发展，”西门子EDA半导体行业副总裁迈克尔·芒西表示，“软件的运行离不开硬件载体，必须依托芯片才能实现功能。但产品设计流程已发生根本性转变：在传统模式下，企业通常先完成芯片开发，再启动软件开发工作；而如今，产品的大部分功能与特性都由软件定义，因此软件开发周期大幅提前。此外，企业还希望通过产品上市后的软件更新实现商业变现——简言之，就是通过软件升级为产品新增功能、优化体验。这就要求企业在芯片架构设计阶段，就必须统筹规划这些需求。”

但硬件必须具备支持软件迭代的能力。以苹果手机（iPhone）为例：“当苹果移动操作系统（iOS）16发布后，用户将其安装到手机上，会发现手机体验得到显著提升——麦克风降噪效果更好、拍照画质更清晰。这些优化均依托可更新的软件与DSP算法实现。同时，电池续航时间也有所延长——这是因为苹果通过软件调整了芯片的功耗曲线，并升级了电池管理系统算法，从而延长了电池使用寿命。而这一切的实现，都离不开‘产品全架构支持软件更新’的设计理念。如今，特斯拉等企业也开始为汽车提供软件升级服务，为车辆新增功能——这无疑为行业发展指明了方向。正因如此，企业正加大对编译技术的投入——毕竟软件开发进程已大幅提前，甚至需要在芯片样片问世前，就启动软硬件协同设计工作。”

原文：

https://semiengineering.com/programmable-chips-evolve-for-shifting-needs

EETOP创芯大讲堂芯片课程推荐

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.