科技魔方

AI时代,FPGA如何全线赋能云网边

科技看点

2023年11月17日

  来源:E企研究院

  大语言模型带来的智能涌现,让人们意识到:强人工智能的时代真正来临。大语言模型与强化学习的结合让机器与人类的行为实现对齐,甚至体现了更高水平的洞察力。第四次工业革命的技术底座由5G、物联网、机器学习构成,而人工智能将这些拼图融合在一起。

  多模态的信息输入、预处理、学习、推理……这些关键性流程的应用门槛迅速降低,推动企业数字化转型进入新的阶段。许多领域正在积极引入机器学习的成果,市场处于快速变化的状态。数据中心的性能需求旺盛,机器学习等训练任务促进了云上性能的发展,不论是算力,还是网络带宽。来自边缘侧的需求也在提升——数据的本地化需要,或者严格的实时性要求等。FPGA是提升新型工作负载效能的理想选择之一,其具有硬件级的性能,又拥有适应多样任务需求的灵活性,且可以非常快速地进入市场。

  11月14日,英特尔在北京举办了以“创新加速,塑造FPGA芯未来”为主题的2023年英特尔FPGA技术日,展示了FPGA的新品及全矩阵应用,以及行业伙伴在数据中心、AI、网络、嵌入式等关键领域的诸多应用。

  Mike Fitton博士 英特尔可编程方案事业部副总裁兼网络业务部总经理

  全面的产品组合

  在技术日中,英特尔推出了六款FPGA新产品和平台,其中包括:Agilex 3、Agilex 5、Agilex 7、Nios V软核处理器、开放式FPGA堆栈(OFS)、F2000 IPU平台。在2023年底,还会有约10款新产品进入市场。覆盖高、中、低端市场的产品组合,灵活、定制化的平台功能和强大的可扩展性,辅以高效率的软件栈,以及极具韧性的供应链,英特尔FPGA产品可以帮助开发人员在复杂的环境中快速构建从云到边缘的解决方案,满足各层级的需求。

  Agilex 7系列:采用英特尔10制程工艺,支持CXL提高带宽和连接性能,并借助HBM加快内存访问速度,该具有性能功耗比优势的Agilex 7 M、F和I系列FPGA现已上市。其中,Agilex 7 FPGA R-Tile相较于其他同类FPGA产品,其每个端口的PCIe5.0带宽速度提高了2倍,CXL带宽提高了4倍。

  Agilex 7开发板

  Agilex 5系列:采用第二代英特尔Hyperflex FPGA架构和英特尔7制程工艺,对晶体管的每瓦性能进行了优化,从而实现出色的能耗。同时采用英特尔上一代高端产品中嵌入的业界首个针对AI优化的模块,并将其扩展至Agilex 5 FPGA的中端产品中,为边缘AI应用提供了理想选择。其中,Agilex 5 E系列FPGA在功耗和尺寸上进行了优化。

  Agilex 3系列:外形小巧,在功耗和成本上进行了大幅优化,且拥有广泛的IO支持。其中,即将推出的Agilex 3 B系列FPGA面向电路板和系统管理,包括服务器平台管理(PFM)应用;C系列FPGA则针对一系列复杂可编程逻辑设备(CPLD)和FPGA应用提供更多功能以用于垂直市场领域。

  值得一提的是,英特尔的定制逻辑芯片不止于FPGA,也包括eASIC和ASIC。三管齐下的组合提供了极高的灵活度,以支持市场对于不同功耗、成本和上市时间的多样化需求。与FPGA相比,eASIC(结构化ASIC)的开发时间较长,可满足更低的功耗和单位成本需求,适合以十万计的产品数量。ASIC(标准单元ASIC)在功耗、成本、性能方面更有优势,但开发时间是eASIC的两倍,适合百万级以上的产品数量。

  智能、互联对FPGA的挑战

  当AI进入大模型时代,算力和互联带宽需求激增,甚至远远超过了CPU性能的增长速度,系统对各种加速器的需求极其旺盛。对于高性能加速器(含FPGA),面临三大挑战,也是发展趋势。

  芯片创新步伐:不断变化的标准、层出不穷的工作负载、对更高性能和更高功效的旺盛需求,人们迫不及待的需要用硅来解决各种难题,传统的半导体设计方法已经很难适应快速迭代的需要。新的芯片需要加快创新步伐、快速集成新功能,选择适宜的制造工艺、IP、代工服务。基于Chiplet的异构集成已经被证明是后摩尔时代的理想解决方案。Agilex 7便是典型的Chiplet设计,由Core Fabric芯粒和R-Tile、F-Tile芯粒构成。其中Core Fabric负责提供运算等核心功能,F-Tile负责提供主流的PCIe 4.0收发器, R-Tile负责支持前卫的PCIe 5.0、CXL2.0等特性的收发器。

  数据激增:海量的数据需要更大的存储容量和带宽,内存墙正日益成为设计的瓶颈——再强大的加速器都需要充足的数据来喂饱。AI应用是典型的受限于内存的场景。Agilex也积极支持最新的内存接口标准,包括DDR5、LPDDR5和HBM2e。

  设计复杂性:加速器的工作负载变得日益复杂,更高的性能、更多的控制平面,同一芯片可能需要支持不同的指令集,这些都导致设计复杂性增加。AI负载的需求进一步加剧了这个问题,譬如不同的数据精度、跨平台的协同等。开发人员需要简便的 FPGA 开发、AI 和工作负载加速工作流,开放式的加速生态系统。英特尔OFS、OpenVINO、Quartus等软件栈资源有助于缩短开发时间,简化跨平台部署的难度。

  快速满足边到云的AI扩展需求

  AI应用场景日趋多元化,需要复杂多样的产品才能满足需求。我们可以将场景分成三类:云端、网络、边缘。

  云端的AI需求主要就是大批量的处理,包括深度学习、机器学习等。其特点是数据量庞大、运算负荷大,带宽要求高,但实时性通常不高,甚至允许错误回滚。网络的AI需求包括数据包检测、拥塞控制等,对于无线网络,AI还会用于波束成形等。边缘侧的应用,通常需要较高的实时性,譬如工业、医疗、交通中的识别与控制,以及金融分析等应用,有严格的时延要求。多样化的应用场景需要不同类型的AI算力支撑,数字底座由多层次的、不同指令集的异构算力构成。

  边缘侧

  对于边缘侧应用,尤其是嵌入式设备,AI是创新的爆发点。将AI称为嵌入式世界转型的中心舞台毫不为过,利用AI可以提高生产力、效率、质量、体验……譬如,在技术日的现场展示就包括通过机器学习增强计算视觉,快速地在生产线中构建缺陷检测系统。再譬如通过传感器跟踪丰富的、超越人类经验感知的设备信息并加以学习和推理,可以为预防性维护提供参考。物联网从数字化到智能化,会产生巨大的市场需求。5G的普及、AI实施门槛降低,使得各种规模、数字化水平的工厂都有机会进入工业 4.0时代。

  工业缺陷检测实时平台演示

  边缘侧的应用存在于大量的细分领域,通常是个性化的,具有小批量的特点,适合FPGA进行满足。边缘侧还可能需要多功能叠加,同时处理多个卷积神经网络。需要灵活性,譬如I/O接口类型、可定制的数值精度等。这些特点对开发工具也提出了更高的要求。通过英特尔OpenVINO和FPGA AI Suite开发套件,可以快速生成IP和进行RTL硬编码,快速开发和迭代FPGA,验证和部署更优的深度学习推理模型。

  对于边缘侧,尤其是工业界的应用,AI应用的链条很长,场景多样。从数据采集开始,需要涉及多种模式的传感器及数据,部分数据还涉及传感器融合。众多的数据经过预处理汇入数据湖,进行进一步的处理。其中的一些事件作为推理(预测或异常检测)的输入,实时处理并控制相应的执行器。一部分事件和整个数据湖积累的数据,可以通过机器学习、生成式AI助力,帮助流程、产品、设备的重新设计。在整个流程当中,会涉及到包括FPGA、ASIC、CPU、GPU等硬件能力,以及Quartus、OpenVINO等软件栈。

  传感器融合演示

  数据中心

  FPGA在数据中心的应用非常广泛,其中,数据中心的加速功能主要包括两个方面:架构加速和应用加速。

  一方面是对数据中心基础设施的加速,也就是架构上的加速。数据中心的资源包括计算、存储、网络,通过重构,可以降低成本、提升效率,提升整个数据中心的TCO。

  对于计算优化型实例,CPU只是单纯的使用计算的功能,对于用户而言,虚拟的存储资源都在IPU下面。相应的,是存储型的节点,有的存储服务器会把盘直接挂在 CPU 上,但会受到PCIe通道数量的限制,也有的存储服务器把盘挂在FPGA下。在数据传输的过程中,可以有很多的事情交给FPGA来做,譬如压缩解压、加密解密,或者一些数据的预处理,效率会比通过CPU进行处理要高的多。

  传统服务器的内存是安装在服务器内,容量是固定的,不能随意增减。随着CXL协议的成熟,用户可以用FPGA来做内存的管理。首先是做内存容量的扩展,第二个阶段是内存的池化,将内存动态的分配给需要的计算节点。在内存盒子中,还可以让NVMe SSD充当内存(如内存语义SSD),或者让内存充当SSD缓存,可以降低成本或者提升性能,这些对于主机可以是透明的。除了内存、存储节点,数据中心还可以把GPU或者加速节点解耦出来。

  另一方面是应用的加速,包括AI的加速、数据处理的加速,典型如DPU、智能网卡,可以卸载一些原本CPU的处理工作,或者做一些特定的数据处理。加速卡具体承担哪些方面的处理,是根据对应用、协议的理解进行的,FPGA的可编程性就很适合这种场景。

  FPGA还有一个特点是低时延,它的数据处理通过特定的每一个门,工作流的时延是可预测的。这种超低时延的特点对于金融分析、处理非常有价值,如高频交易等。LMS和BittWare基于Agilex7 FPGA开发的专为金融服务业设计网卡,时延降低了61%,吞吐量提高200%,性能一致性提升超千倍。

  专为金融服务业而设计的基于英特尔Agilex7 FPGA的网卡

  构建可信任、有韧性的供应链

  供应链是技术日中多次被提及的重点话题。半导体芯片的需求持续高速增长,芯片出货量在2021年已达到1.15万亿个,且预计到2030年的平均增长率可以达到8%。但是,众所周知,在过去几年中,全球供应链面临着非常复杂、广泛的危机。英特尔的FPGA产品线针对供应链难题提出了韧性供应 (Supply Resilience) 计划,将投资重点放在加强端到端供应链、提高产能、增加冗余和增加缓冲库存,以提升供应链的弹性和控制力,不但要满足客户需求,还要降低未来再次遭遇供应链中断的风险。相关的举措包括优化产品组合,增加采购来源,如对更多基板供应商进行认证、扩大测试和组装能力,与包括台积电、三星、格芯在内的晶圆代工厂合作扩大晶圆产能等。PSG 全球销售总经理 Sean Dougherty表示,目前PSG已经完全摆脱供应困局,所有产品的交付周期也已恢复到正常水平。

  预计到2023年第四季度,英特尔主要FPGA产品的交货时间将达到16周或更短时间。产品供应周期将长达15年或更长时间。可预测的交付和长生命周期,加上敏捷的原型设计,将极大提升FPGA客户的信心。

+1

来源:科技魔方

延展资讯