人工智能开始革命这类芯片|dsp|存储器|编译器|新模型|fpga

分享至

人工智能正开始介入可编程逻辑的设计与管理工作，可用于简化并加速设计流程中的部分环节。

尽管 FPGA 和 DSP 的效率仍不及固定架构芯片，但在生命科学、人工智能处理、汽车电子以及 5G/6G 芯片等需求几乎持续变化的市场中，它们依然极具价值。现场可编程能力为新协议、新标准以及架构修改提供了面向未来的保障，它就像一块空白画布，可以加载任何工作负载。

阿尔特拉（Altera）业务管理部门负责人文卡特・亚达瓦利（Venkat Yadavalli）表示：“芯片外围有一个可编程 I/O 环，你可以接入任何类型的 I/O 信号，并将其转换为可在该可编程架构内部进行后处理、面向特定工作负载的处理引擎。”

但 FPGA、eFPGA 和 DSP 的设计既复杂又耗时。Arteris 产品管理与营销副总裁安迪・奈廷格尔（Andy Nightingale）称：“FPGA 的应用场景理应比仅用于原型验证或特定功能更加广泛。在降低内存和 I/O 瓶颈方面，它们非常理想。但对 FPGA 进行编程仍然相当复杂。与在 GPU 上运行软件完成类似任务相比，编写 FPGA 代码需要具备 RTL 设计能力。”

虽然 FPGA 工程师已经对比特流的输入输出方式进行了优化，但这需要一套不同的软件栈来管理。Baya Systems 首席商务官南丹・纳亚姆帕利（Nandan Nayampally）指出：“赛灵思（现已并入 AMD）和阿尔特拉等公司都构建了核心 CPU 集群，使其 FPGA 架构具备更强的可编程能力。他们试图解决部分编程难题，但要打造一套能同时适配 GPU、CPU 和 FPGA 的通用方案非常困难。软件栈种类越多，快速推进的难度就越大。”

如今，这一切都通过软件抽象层进行管理。亚达瓦利称：“可编程性由顶层的软件层控制。对于 FPGA，我们拥有一套顶尖工具，可以接收工作负载、对其进行综合、布局与封装，从而实现最优的功耗、面积，并匹配最佳的 FPGA 目标器件。这类工具正是最大的竞争壁垒，这也是很少有厂商能够真正突破并落地实施的原因。芯片谁都能造，但拥有一套成熟的软件将算法导入芯片却极为困难，而这种成熟度取决于你希望覆盖的广度以及想要实现的可编程类型。”

图 1：FPGA 人工智能开发流程（来源：Altera）

展望未来，自主智能体 AI有望加速 FPGA 设计，尽管它不一定能帮助用户为自己的产品完成 FPGA 编程。亚达瓦利表示：“我们对未来的 AI 机遇感到兴奋，它让我们不必成为顶尖的 FPGA 设计师或 ASIC 设计师。未来会有智能体将我的代码转换为可执行代码，我可以通过语音、图表、原理图等任意方式输入信息，经过多轮处理后直接输出最终代码。这是理想状态。目前自主智能体 AI 还做不到这一步，但我认为这是一个重要机遇，能吸引更多人进入这些平台进行创新。”

AI 也带来了新的复杂性

与此同时，初次使用 FPGA 的用户，以及熟悉 FPGA 但正在引入 AI 的用户都面临着挑战。AMD 自适应与嵌入式事业部产品营销高级经理罗布・鲍尔（Rob Bauer）称：“随着高层次综合等技术的出现，FPGA 编程已变得越来越简单。工程团队可以使用相关工具将算法或 C 代码转换为 RTL。从工具流程来看，我们拥有 Vitis AI 等工具，能够打通 PyTorch 模型到 AI 引擎之间的壁垒。这一点至关重要，能让用户快速将 AI 部署到芯片中。流程确实变得更简便了。”

鲍尔表示，目前基于 AI 的 RTL 代码生成辅助工具还不多见。“但在将 AI 工作负载导入芯片方面，随着我们明确需要支持的模型，并致力于编译器优化、量化器等底层开发，难度已经大幅降低。”

也有企业已经看到智能体生成 RTL 的案例。ChipAgents 创始人兼首席执行官王威廉（William Wang）表示：“对于 FPGA 这类可编程器件，原生 AI 编译器与智能体可以从高层代码或自然语言中推断设计意图，生成 RTL 或高层次综合代码，并自动优化映射、流水线与时序收敛。编译器正在向自适应流水线转变，可随着模型架构与算子的变化，实时优化内核、内存布局、并行度与调度策略。”

在 SoC 中添加独立或嵌入式 FPGA 并非难事，但要使其正常工作 —— 尤其是结合 AI—— 则需要专业经验。西门子 EDA 项目总监拉塞尔・克莱因（Russell Klein）指出：“下游客户面临一个挑战：过去纯粹的软件工作，现在需要设计部分将集成到 FPGA 中的硬件，这有些令人望而生畏。突然之间，大家开始关注：我们有算法，需要导入 FPGA，但可能没有经验丰富的硬件设计师来完成。我们能否直接使用这些算法，借助工具将 C 函数导入？这不再是传统高层次综合所负责的加速设计工作，因此我们开始尝试有限支持 Python，并将其编译到 FPGA 架构中。传统上，使用 Verilog 或 VHDL 设计 FPGA，而现在出现了更贴近软件开发人员需求的高层设计方法，让他们能够将功能导入 FPGA 架构，并利用其功耗与性能优势。”

另一种思路是让编译器更智能，内置更多智能逻辑。克莱因称：“这样就能尽可能减少对 FPGA 编程所需的硬件设计知识。但目前我们还没达到这一水平，AMD 也没有。该领域尚无一款产品能让软件工程师直接使用编译器生成可用结果。这仍然需要一定的硬件设计与数据流知识。这并非说软件工程师学不会，他们完全可以。软件工程师可以开始了解这项技术，经过培训后，就能将算法从 CPU 迁移到可编程逻辑中。长期来看，这将只是编程的延伸：我要写一段程序，是编译到 CPU 上运行、GPU 上运行，还是编译到 FPGA 架构上运行？这是非常长远的愿景，业内所有参与者都在朝这个方向推进。”

其中一个挑战是针对特定工作负载对 FPGA 进行优化，在功耗、性能与延迟之间取得最佳平衡。鲍尔表示：“这始终需要权衡，因为在嵌入式领域，还要尽可能优化成本。你可以在笔记本电脑上运行这些模型，但无法满足边缘系统所需的性能。”

图 2：可编程逻辑与处理器的预处理时间对比（来源：AMD）

部署 AI、进行测试并确保一切正常运行存在学习曲线。鲍尔称：“技术发展速度极快，今天使用和评估的模型可能很快就会过时。一年后可能就会出现更好的模型，因此你需要能够快速适配的方案。不同的人会根据要解决的问题遇到不同的困难。”

工作负载迁移与可编程性在 AI 模型中的作用

Baya 的纳亚姆帕利表示，如果设计者明确知道要运行哪种模型，就可以设计出非常高效的 AI 加速器。“但模型在不断变化，因此需要一定的可编程性。然后根据加速器架构，添加抽象化的软件栈，让用户不必每次都重新学习。”

由于未来充满未知，一定程度的可编程性至关重要。纳亚姆帕利称：“看看英伟达的做法，它本质上仍是带加速功能的 GPU，具备很强的可编程性。CUDA 是其成功的关键。而能否快速实现这种可编程性与优化，正是成功的核心驱动力。”

随着行业格局持续演变，这些考量凸显了 FPGA 与 AI 系统设计中可编程性、效率和灵活性之间的动态关系。尽管优化仍是关键关注点，但 AI 模型的迭代速度已开始趋于平稳。

ChipAgents 研究负责人Kexun Zhang表示：“四五年前，人们在为机器学习或 AI 工作负载开发编译器时，都热衷于打造一款强大的编译器，能将任意 AI 模型架构转换为高效的中间表示。但如今，面向 AI 模型的智能编译器相关研发投入已大幅减少，因为 AI 领域最重要、工作量最大的部分，已不再是人们不断开发不同模型架构并逐一测试。过去正是这种情况催生了对编译器的需求，因为需要加速各类奇特、随机的架构。”

如今最重要的工作负载之一，是由 Transformer（大语言模型底层架构）执行的矩阵乘法运算。张克勋称：“至少对语言模型而言，硬件并不需要那么强的可编程性，因为它们只需要处理一种类型的工作负载。”

设计者对编程语言的选择也会影响效率。弗劳恩霍夫研究所自适应系统工程部高效电子部门主管安迪・海尼希（Andy Heinig）表示：“总体而言，如果你用 Python 这类高层语言编写代码，总会损失能效。这些语言的功耗表现不如嵌入式语言或 C、C++。”

因此，尽管高层语言能简化编程，但可能会牺牲功耗效率。海尼希指出：“从这个角度来看，我们确信软硬件协同设计是节约大部分能耗的途径，但目前尚未普及，因为我们需要更多抽象层来解决这些问题。”

FPGA 设计进展

阿尔特拉的亚达瓦利指出，FPGA 设计的一大挑战在于打造足够灵活、可适配截然不同应用的工具。这一问题已通过易用且集成化的软件流程得到部分解决，支持 AI 开发者、FPGA 工程师以及嵌入式 / SoC 开发者在统一设计环境中协作。

分析工作也在变得更加简便。亚达瓦利称：“全新的功耗与热分析工具精度大幅提升，能够提供智能建议，帮助设计者在整个设计与板级布局过程中更好地管理能耗与散热限制。”

尽管 FPGA 名义上是数字电路，但其分析深度接近模拟级，与存储器、CMOS 和图像传感器类似。新思科技（Synopsys）产品营销总监马克・斯维宁（Marc Swinnen）表示：“FPGA 虽然是数字电路，但其熔丝工作机制、电阻与器件分析，由于具有重复结构，可以对每个单元进行深度分析，再整体复用。这类分析包含大量模拟特性，供电、信号完整性等在高速场景下尤其具有模拟成分。问题在于，所有具备模拟分析特性的器件规模都非常大，而传统模拟设计规模较小，工具也都是为小设计量身定制的。”

斯维宁表示，全新的云端工具与更完善的基础设施，让 FPGA 设计者能够以前所未有的细致程度分析完整设计。

DSP 的设计与部署

FPGA 并非唯一的可编程硬件方案，也不是唯一受 AI 影响的方案。尽管 AI 让 DSP 设计更加简便，但来自现实世界传感器的模拟信息不断增加，也带来了日益复杂的挑战。

楷登电子（Cadence）产品管理与营销高级总监、计算机视觉 / AI 产品负责人阿莫尔・博尔卡（Amol Borkar）称：“机器学习可基于模拟仿真数据自动调优 DSP 算法，助力数模混合协同设计。这能缩短设计周期，帮助工程师在模拟精度与 DSP 复杂度之间找到最佳平衡。”

这种复杂性正在改变设计团队处理模拟与数字的方式。博尔卡指出：“过去这两个领域相互独立，如今则需要协同工作。”

功耗与面积的权衡同样是核心焦点。博尔卡解释道：“模拟模块效率高但难以扩展，而基于 DSP 的方案能提升性能，但会增加功耗与芯片面积。设计者需要做出权衡：是采用高分辨率 ADC 简化 DSP 工作，还是使用低分辨率 ADC，让 DSP 承担更多运算？”

在边缘 AI 部署中，开发者必须明确哪些工作负载运行在传统 DSP 上，哪些运行在面向低功耗嵌入式设备机器学习优化的向量扩展指令集（如 Arm Helium）上。英飞凌科技物联网、计算与无线事业部高级副总裁史蒂文・塔特奥西安（Steven Tateosian）解释称，以智能手表为例，大部分音频处理在传统 DSP 上完成，而大量预处理工作则在 Arm Cortex-M55 MCU 的 DSP Helium 扩展单元上执行。“该 DSP 的应用场景与音频处理不同，更多用于前置与后置滤波。”

同样的问题也适用于汽车领域。英飞凌互联安全系统事业部总裁兼首席执行官托马斯・罗斯泰克（Thomas Rosteck）表示：“AI 无法解决分割问题或系统架构问题，但它提供了一种分析数据并给出反馈的全新方式。”

存储器编译器

随着 AI 模型日益复杂，行业向软件优先设计转型，对先进存储器编译器的需求不断上升。

新思科技嵌入式存储器 IP 首席产品经理达里尔・塞策（Daryl Seitzer）称：“如今芯片架构师在确定硬件规格前，会优先考虑软件算法需求，尤其是机器学习与数据分析相关需求。能否快速调整存储器架构以支持独特 AI 算法，已成为芯片设计者的关键差异化能力。这种转型推动了对具备灵活可扩展嵌入式存储器方案的存储器编译器的需求。随着 AI 应用复杂度提升，行业对专用数据结构的依赖日益增加，对大规模数据集的访问更频繁、更并行，存储器编译器必须支持新特性，以满足这些由软件驱动的全新需求。”

最新一代存储器编译器提供高度灵活的配置、超低电压支持与丰富的多端口选项，让芯片设计者确信其存储器 IP 能够快速适配算法需求变化。塞策补充道：“面向 AI 的存储器特性包括转置数据流、针对数据稀疏性应用的功耗优化设计，以及乘加单元间距匹配等。”

结论

FPGA、DSP 及其他可编程芯片在芯片行业中扮演着愈发重要的角色，各类应用需要处理器的复杂组合来实现特定目标。随着 AI 模型与应用持续演进，全新工具正让设计者与客户更轻松地利用可编程能力。

阿尔特拉的亚达瓦利称：“FPGA 的应用由技术架构师决定，哪些部分适合用 FPGA 实现，哪些适合用 GPU、ASIC 或其他芯片实现。前期的讨论就是我们所说的架构阶段。团队会进行研究与设计划分，确定数据平面哪些部分需要通过 FPGA 组织，控制平面如何配置。最重要的是，在平衡市场需求与未来演进的前提下，这种实现方案的总体拥有成本是否合理。”

支持 FPGA 的核心优势包括：I/O 灵活性、确定性低延迟、安全灵活性，以及能够整合多种不可控工作负载的能力。亚达瓦利表示：“你可以从平台层面构建合理的风险架构，让工作负载易于编排与调度。最终，它还必须与顶层软件层适配。这就是优秀的软硬件协同设计。”

（来源：semiengineering ）

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.