(文/林利集团(The Linley Group)高级分析师/Aakash Jani)CertusPro-NX是莱迪思在18个月内采用Nexus技术平台开发的第四款产品,它将为更广泛的应用带来行业领先的功耗、性能和尺寸优势。这些通用FPGA提供低功耗、小尺寸和高带宽I/O(例如PCIe Gen3和千兆以太网接口)等特性。它们非常适用于网络边缘人工智能、工业IoT、5G控制平面和其他应用。本白皮书由莱迪思赞助,但文中观点和分析内容为作者所有。
莱迪思半导体推出的第四款基于Nexus平台的产品——CertusPro-NX为现有FPGA市场带来了重大革新。该系列FPGA采用28 nm FD-SOI工艺制造,拥有低功耗和小尺寸优势,主要针对低密度器件市场。与之前发布的Certus-NX相比,新产品的逻辑单元从17 K提升到了96 K。2020年,通用FPGA市场更加多元化,市场规模增长约为10%;CertusPro-NX可用于实现各种功能,应用领域包括5G蜂窝网、人工智能和物联网。这些市场不断发生着变化,而FPGA则能提供ASIC不具备的强大灵活性。
新产品系列有两种型号,CPNX-50K有52K逻辑单元;CPNX-100K有96K逻辑单元,也是首发工程样片。如图1所示,后一种型号有一个支持LPDDR4 DRAM的可编程I/O(同类FPGA中尚属首次)。莱迪思还将内部存储器容量拓展了3倍,让CertusPro-NX在进行存储密集运算时降低功耗。
图1:CertusPro-NX框图。全新FPGA包含7.3 Mb的片上存储器、156个18x18乘法器的DSP模块、可编程逻辑以及8个灵活的10Gbps SERDES通道(可配置连接DisplayPort或CoaXPress)。
在设计CertusPro-NX系列产品时,莱迪思采用了28 nmFD-SOI工艺。尽管之前人们对这个选择存在质疑,但莱迪思完美达成了功耗和软错误率方面的标准,这对公司赢得客户的多个应用设计来说至关重要。除了可编程逻辑之外,CertusPro-NX还拥有硬核模块,也可以降低功耗。它还包括一个10G以太网端口和一个四通道PCIe Gen3控制器。莱迪思还尤其关注位流配置模块,因而其器件的启动速度非常之快,可在不到 30 毫秒内完成配置。
CertusPro-NX相比于前代产品提升巨大,能够让客户在他们基于FPGA的设计中实现高级功能。莱迪思将新产品的逻辑单元数量翻倍,拓展了片上存储器容量,升级了PCIe控制器以及可编程I/O接口。与英特尔的Cyclone V GT系列和赛灵思的Artix-7系列相比,新产品的性能达到了行业最佳。
机器视觉和网络边缘AI
除了拓展CertusPro-NX的可编程逻辑架构外,莱迪思还强化了该平台的AI功能。新器件使用了7.3 Mb的内部存储器,客户可以加载轻量化的神经网络来识别物体、监听关键词或检测异常行为。然而硬件只是设计的一方面。莱迪思的sensAI软件集合能与Caffe、TensorFlow、TensorFlow Lite和Keras等框架配合使用,且拥有莱迪思AI编译器的支持。这一经过验证的解决方案集合为众多莱迪思客户提供了功耗和资源效率充分优化的人工智能应用。该软件平台与公司的多款FPGA兼容(CertusPro-NX的兼容性计划于今年晚些时候推出)。
网络边缘的机器视觉应用不仅要求使用硬件来实现神经网络,还需要传感器兼容、传感器聚合和图像预处理等功能。在这方面,莱迪思通过可编程I/O和SERDES模块来为CertusPro-NX的客户提供足够的灵活性。例如,许多高清图像传感器都采用SLVS-EC接口,这是许多网络边缘AI加速器所缺少的。
可编程SERDES还支持各种将数据从网络边缘传输到系统内部的标准,包括CoaXPress和10G Ethernet。
CertusPro-NX 的片上存储器大小远超竞品。由于DRAM操作会增加功耗并降低吞吐量,所以如果所有权重都存储在芯片上,神经网络就能以最佳状态运行,且能够最大限度地减少DRAM访问。因此,客户希望拥有更大的片上存储器。莱迪思全新FPGA可以存储多达100万个8位权重——几乎是Cyclone V GT或Artix-7的两倍。由于芯片内部可以存储更多的权重,CertusPro-NX可以在不访问DRAM的情况下运行更大的AI模型,从而降低功耗。
当莱迪思FPGA确实需要访问DRAM时会使用可编程I/O模块,它支持LPDDR4和速度达1066 Mbps的DDR3存储器。CertusPro-NX是同类产品中首个支持LPDDR4的产品——比仅提供DDR3及更低标准的竞品领先一代。然而,平均而言,这种较新的技术会增加芯片和系统的功耗。但由于CertusPro-NX有着更大的片上存储器和优化的存储器控制器,它可以通过使用片上和外部存储器,降低能耗和存储器访问时间来达到新的能效高度。长期的可用性也是包括嵌入式视觉在内的许多市场关注的问题,LPDDR4则解除了这种担忧。
构建智能家居甚至是智慧城市的一个关键因素是可见性。大多数终端用户更倾向于不显眼的物联网传感器设计,而小尺寸的微处理器是此类设计的核心。CertusPro-NX的面积仅为81 mm2,在支持SERDES的同类产品中拥有最小的封装,比Cyclone V GT小33%,比Artix-7小84%。小尺寸FPGA进一步增加了设计的可用空间,让OEM厂商得以增加更多功能或缩小设计尺寸。
工业物联网
最新一代工业物联网的特点就是大规模自动化,这得益于互连和数据分析方面的进步。为实现自动化分拣和包装等任务,智能工厂需要数千台物联网设备,它们每天共生成和处理的数据量达TB级。驱动这些设备的芯片必须尺寸小、功耗低且可靠性高。为了让客户为工业4.0做好充分准备,莱迪思在其最新一代FPGA中采用了以上原则。
与基于CMOS工艺的FPGA竞品相比,CertusPro-NX采用了FD-SOI来降低功耗。对这种功耗优势进行量化分析的一种方法是查看各个供应商的功耗估算器。假设设计需要65 K逻辑单元、使用了75%的DSP和存储器、运行两个5Gbps的SERDES通道。对于在85℃结温和125MHz频率下运行的该设计而言,CertusPro-NX的总功耗(动态+静态)比Artix-7少75%,比Cyclone V GT少65%,如图 2 所示。
这些数据展示了FD-SOI工艺带来的强大功耗优势。该制造技术在基板中使用绝缘层,与其他28 nm Bulk CMOS产品相比,漏电流最多可降低75%;而漏电流是产生静态功耗和待机功耗的主要因素。
随着OEM厂商通过提高功耗来提升其产品性能,英特尔和赛灵思的FPGA将比莱迪思FPGA更快地超过其结温阈值。凭借其领先的功耗效率,CertusPro-NX拥有更多功耗和散热空间,从而帮助OEM厂商缩减系统尺寸,降低散热管理成本。此外在结温以下运行的系统不需要安装容易出现机械故障的风扇。
散热对于工业马达控制更为重要。马达往往是密封的,防止灰尘颗粒进入,缩短其使用寿命。然而,在运行期间,热量会在马达中积聚并提高FPGA周围的环境温度。与竞品相比,莱迪思的低功耗解决方案能让FPGA控制更高扭矩的马达而不会过热。
图2:FPGA功耗比较。LC = 逻辑单元。与英特尔和赛灵思的同类FPGA相比,莱迪思FPGA的功耗降低65-75%。此处的功耗估算是5 Gbps双通道SERDES应用在125MHz以及85℃结温下,资源使用率为75%时计算得出的。(数据来源:莱迪思)
FD-SOI还拥有消除单粒子翻转(SEU)错误的额外优势。当辐射粒子穿过器件并与存储器或寄存器单元相互作用时会发生这种错误,这会导致器件逻辑状态错误翻转,从而破坏存储器或数据路径。与Artix-7相比,CertusPro-NX可降低99%的软错误数量,无需使用软错误检测逻辑和纠错代码。这种方法既提高了系统可靠性,又简化了客户设计。
CertusPro-NX的平均故障间隔时间(MTBF)是Artix-7的110倍。这一特性可满足汽车和医疗系统对可靠性的需求;由于不需要经常进行现场调整,因此还可以降低维护成本,保证关键操作的正常持续运行。较高的MTBF还可以提高工业机器人的安全性,因为控制FPGA进入未知状态可能会导致机器故障,从而造成人身伤害或财产损失。
OEM厂商通常需要将FPGA与其他系统组件配对,这要求芯片间接口拥有高带宽,防止数据流瓶颈。全新CertusPro-NX具有支持此类连接的四通道PCIe Gen3控制器。而其竞品通常只支持PCIe Gen2,每个通道速度比PCIe Gen3慢了50%。更高的SERDES带宽结合更新的PCIe技术,让CertusPro-NX的客户打破芯片互连的瓶颈,而使用其他解决方案可能难以实现这样的效果。
5G应用
为了更好地服务于无线网络,基站OEM会将控制平面和用户平面分开,让每个平面独立扩展——这是5G网络的一个关键特性,因为随着3GPP不断发布新规范,这两个平面每年都会有所变化。控制平面是模块化的,因此无线网络供应商可以将其功能拆分到多个芯片中或将它们整合到单个芯片上。它处理各种任务,包括身份验证、客户端 (UE) 会话管理和统一数据管理。
尽管CPU可以执行所有这些功能,但它的效率不如FPGA。据行业估计,OEM厂商需要高效的硬件,因为每个5G基站的功耗比4G基站高70%。考虑到灵活性和功耗限制,基站OEM通常需要FPGA来协助增强处理器或 ASIC。莱迪思新产品的功耗低于Artix-7和Cyclone V GT,简化了基站的散热管理。
5G小基站空间狭小,数据流动量大。CertusPro-NX在拥有SERDES功能的同类芯片产品尺寸最小,非常适合小尺寸设计且数据速率不会受到限制。如图3所示,CertusPro-NX领先的75 Gbps SERDES带宽比Artix-7高36%,是Cyclone V GT的2倍以上。对于数据包管理等高带宽功能,莱迪思FPGA凭借其更大的SERDES带宽可提供更高的吞吐量,面积效率遥遥领先。
图3:SERDES总带宽。CertusPro-NX超过竞品达2倍之多,在数据密集型操作(例如5G基站中的统一数据管理)方面有着显著优势。(数据来源:莱迪思)
结论
莱迪思推出CertusPro-NX主要是为了满足机器视觉、工业物联网、5G蜂窝网和其他不断增长的市场需求。该器件经优化的内部存储器和LPDDR4可最大限度地减少神经网络等存储密集型操作的功耗。FD-SOI技术降低了功耗和故障率,让下一代器件更可靠且运行成本更低。新款FPGA的10Gbps SERDES和行业领先的封装尺寸使其非常适合辅助数据处理的小型系统,例如5G蜂窝网络。除了在这些领域中表现出色,OEM还可以将其应用于许多其他领域,包括国防、汽车和帧抓取。
文中三款FPGA包含数量大致相同的逻辑单元,但莱迪思的产品由于支持LPDDR4而具有显著优势。相比之下,其他器件仍采用DDR3存储器。CertusPro-NX 还提供更大的内部存储器和领先的SERDES带宽。客户不仅可以使用莱迪思FPGA处理和传输更多数据,而且还可以将功耗降低多达75%,电路板面积减少84%。
通过推出CertusPro-NX,莱迪思为多年来投资较少的这一重要领域注入了新的活力。它的主要竞争对手在过去十年中没有发布任何一款新的低成本架构产品,因此它有机会通过PCIe Gen3和LPDDR4等新技术来巩固其最新产品系列的市场地位。这一策略让莱迪思在低功耗FPGA的功耗和尺寸方面始终保持领先。CertusPro-NX在前一代产品创新技术的基础上,扩展了存储器、SERDES和逻辑功能,更好地服务于5G基站、工业物联网和机器视觉等新兴市场。
Aakash Jani是 The Linley Group 的高级分析师兼《微处理器报告》的主编。Linley Group 为客户提供最全面的微处理器和 SoC 设计方面的分析。我们不仅分析业务战略,还 分析技术层面。我们的专题文章涵盖的主题包括嵌入式处理器、移动处理器、服务器处理 器、AI 加速器、IoT 处理器、处理器 IP 核和以太网芯片。