新官上任,干货较多。
去年10月30日,紫光国微在投资者关系活动中表示,对FPGA产品的国产化率以及未来价格压力趋势的答复是,除了个别品类外,FPGA领域已基本完成国产化替代。
价格竞争激烈,现有存量市场需求不足,导致产品价格成为重要竞争手段等。
价格是市场新进入者的唯一机会,FPGA行业自然也不例外。
当下火热的“智算概念”,如果说GPU在数据中心堆算力的方式有多风光,那么在追求性能之外,必须权衡SWaP-C综合指标的端侧,FPGA就有多擅长。
已成为空间产品的关键使能技术,独特价值无可替代。
过去三十多年,FPGA在航天领域的应用发展,大致经历了三个关键节点:
1993年-2004年,大胆设想,小心求证;
2008年-2018年,空间高性能计算平台;
进入到现在的异构计算,板卡级人工智能时代。
Swift作为FPGA空间大拿级系统设计师,可靠性研究及实践方面的资深专家,曾先后任职于NASA推进器实验室(JPL)电子工程部门,是辐照效应工作组的主要成员。全程见证并亲身参与以上过程,是推动高性能FPGA(SRAM型FPGA)在空间应用的先行者、行动派旗手之一。
2007年加入赛灵思,2013年创立Swift工程公司(Swift Engineering and Radiation Servers),主要负责辐照测试联盟大型专用设备(XRTC)的运维,包括故障注入测试以及物理试验工作等具体事项。
回顾此篇“旧”文,具有管中窥豹的现实意义,为新进者提供了可供量化的历史坐标。
早在“勇气号”和“机遇号”成功登陆之际,两大火星车项目作为SRAM FPGA进入航天领域并打响名声的开山之作,远超设计预期。
本以为是巅峰,哪知才是序曲。
从当时项目甲方(NASA JPL)视角,如何看待FPGA在的空间应用前景。
在以稳健到近乎保守的空间应用市场,占据独特地位,并成为现代先进飞行器的关键使能技术(A key “enabling technology”)。
FPGA首次在空间领域应用,可溯源到1993年。航天工程人员最早关注的是Actel公司的高可靠器件,到1997年的火星探测器时,已成为探路者号(PathFinder)的主要组成单元。
从金属氧化物-氮化物-氧化物层(ONO) 反熔丝工艺,发展为一次性可编程(OTP)芯片;
而赛灵思SRAM FPGA,则是可以不受限的多次编程。
两家公司的芯片,都是成熟产线的产品,这能带来长期稳定的供货能力,以及随之伴生的“低”成本,是非常重要的选择考量因素。
1998年的Virtex旗舰芯片,在完成一系列严格测试后,已经展现出SRAM 型FPGA在空间场景的巨大应用潜力,特别适合更广泛的数据处理。
比如用于传感器数据采集,相机控制等等。
(Xilinx SRAM-based FPGAs)… “do appear suited to a broad range of other (non-critical) applications, such as sensor and camera controllers.”
尽管这些处理通常被认为是“非任务关键”,但只有更高的计算性能,才能大幅提升在轨处理能力。
FPGA芯片,正在成为现代航天工程中的关键使能技术。
特别是SRAM FPGA,具有的高集成度和硬件可编程特性,能够将整个板卡上的功能,用单芯片就可完成,从而大幅节省体积、重量和功耗。
作为价格亲民的“ASIC”,还支持进行在轨错误修复,甚至功能升级。
虽然在运行过程中,存在因辐射环境发生单粒子翻转现象(即,存储单元中的数据从0->1,或者从1->0),可能导致数据处理出错,甚至功能故障。
但如果辐射加固措施设计得当,同样可以满足非常严苛的空间任务要求。
在成功登陆火星的“机遇号”和“勇气号”双子星探测器平台中,SRAM FPGA用于实现着陆控制器,使用配置自检技术进行应对,在发生单粒子翻转之后,启动芯片重配置。
按照返回的单粒子翻转日志记录显示:
在任务执行过程中,不仅成功处理了所有的翻转,还与预估数据保持高度一致。
并且,实际发生的翻转次数,甚至比预期的还要少。
Actel公司的高可靠,赛灵思公司的高性能,各有所长,各担其职。
以空间应用使用的Actel RT54SX-S 系列、赛灵思Virtex-2系列芯片为例,两者都具备单粒子闩锁免疫能力(immune to single-event latchup),以及良好的总剂量效应容忍能力(total ionizing dose tolerance)。
而在芯片硬件容量方面,即便按照1/3的资源利用率计算,XQR2V6000也比规模仅为72K的RT54SX72S,高出3个数量级以上;
是后者2700倍。而用于实现时序逻辑的寄存器数,同样是后者的10倍以上。
并且赛灵思FPGA芯片内部还提供2.5M大小的BRAM存储资源,除了能够改善布线结果,还可作为数据缓冲区,进一步提升处理速度。
在空间辐射环境下,两者工艺路线和硬件结构上的差异,决定了受单粒子翻转的影响各异。
Actel FPGA排除了发生单粒子功能中断(即芯片的配置功能中断)的可能,只有用户寄存器会受影响,诱发在轨功能中断;但基于布线原因,其在多个时钟域中,直接导致同一个寄存器发生翻转的概率,非常之小。
赛灵思FPGA则不然,虽然性能更优,但结构更复杂,相对也显得更“脆弱”(Vulnerability):
在运行过程中,既有可能出现芯片的配置功能中断;也更容易出现因单粒子翻转导致的在轨功能中断。
在航天领域之所以能够使用成熟商业生产线的FPGA,得益于设计人员对抗单粒子设计的理解,特别是在板卡级、系统级的缓解加固策略实现,以及高效验证方面,进展得非常快。
可能发生翻转的存储单元包括:
-
配置存储器(CRAM)数据
直接对硬件电路进行编程配置的最基础数据,在位流中的占比最大。
载入到芯片之后,用于逻辑功能、互连线、以及用户选项的配置,决定了硬件电路的结构和行为,在使用部署的整个生命周期中,都应一直保持恒定不变。
-
块存储器(BRAM)数据
BRAM的规模大小仅次于CRAM。遍布在整个器件中,用来存放用户的设计状态数据或者参数。
-
用户寄存器(User Flip-flops)数据
在位流数据中的占比小,处理速度快,是FPGA实现时序逻辑的关键。
在设计运行过程中,每个时钟周期,数据一直在寄存器之间快速流动。
-
器件专用的控制寄存器(Control Registers)
通常用于控制FPGA器件的位流写入过程,比如配置模式的设置等。
在宇宙射线环境下,从重离子辐照试验结果看,赛灵思FPGA表现出相对低的翻转率,以XQR2V6000为例,约为每天6次翻转。
Actel公司RT54SX72S翻转率则低至约6800年,才会发生一次。
相应的,两类FPGA的三模冗余(TMR)设计思路也完全不同。
Actel的芯片简单直接。
每个寄存器都用“三模冗余再加上一个反馈的表决器”来代替;三模加固后的单元,在物理布局上遍布整个芯片;在设计中使用单时钟域;不需要任何额外的辅助模块。
赛灵思风格的三模冗余设计,则要复杂得多。
首先,如果没有配置刷新(Configuration Scrubbing), 三模冗余设计不会太有用。
因为翻转带来的故障累积,迟早会使得两个冗余模块都受到影响,导致表决器输出错误的结果。
其次,需要对所有的功能模块都进行三模设计,而不只是每个寄存器。使用三个表决器,三个时钟域。
还要用到额外的辅助电路,比如最基础的看门狗计时器,以及PROM等。
使用赛灵思FPGA所需的三模冗余设计,如果以手工方式完成,并不容易,繁琐且易于出错。
并且测试用例的开发,与FPGA应用设计可能由同一个团队完成,手工创建的测试用例可能本身就存在问题。
好消息是赛灵思公司新近上线了集成到开发流程中的自动化工具,从辐照试验测试结果来看,该工具非常高效。
在加固效果方面,Actel FPGA的三模冗余设计,排除了静态存储单元发生翻转,以及单粒子功能中断的可能性。
潜在的翻转只可能源自随时钟进入到存储单元的瞬态故障,以及时钟树被高能粒子击中等极小概率事件。
赛灵思FPGA发生以下两类单粒子功能中断的可能性也非常小:
复位信号,或者只是一部分复位信号;刷新端口的使能信号失效。
将赛灵思的三模冗余设计工具XTMR,与刷新机制Scrubbing结合使用,同样可大幅降低系统的翻转率。
两家公司器件在翻转率比较方面,Actel主要是瞬态故障。
与地球同步轨道相类似的星际空间宇宙射线环境下,大致对应为,每1000年发生一次系统错误;
赛灵思主要是单粒子功能中断率,对应为65年发生1次,发生系统错误的间隔时间,为单粒子功能中断率的5-20倍,甚至更长。
Actel公司胜在设计人员负担更小,不需要额外的附加模块,以及更低的单粒子功能中断概率。
赛灵思FPGA的优势在于强大的可重构能力和高性能;
设计使用过程中,芯片内部有丰富的属性集合可供选择;
但如何在芯片资源和加固结构之间的利弊权衡,尽管工具越来越丰富,只能交由设计人员自己掌控,而Know How的人工经验,难以复制,无法推广。
虽然可以借鉴赛灵思提供的器件数据,但只是用来计算静态翻转截面等可靠性指标。
用户抗辐加固设计的有效性,必须通过XRTC中非破坏性的故障注入测试功能,或者相类似的日常回归测试方法,用于对在轨功能中断率、动态翻转截面等指标进行数据量化。
总之,两类FPGA芯片都达到了完全可接受的辐射容忍水平,各有优势。
Actel胜在器件工艺层面的安全。
Xilinx则需要用户在系统层面对设计进行加固,并能够对有效性进行测试验证。
对于用户和应用市场,有竞争,是好事。
低成本设计理念一直在延续,在商业航天时代即将结出硕果。
作为战略性新兴产业,2023年首进中央经济会议,在政策导向资本的现在,可以预期其在国内发展得以加速。
以商业卫星为例,如果没有器件层面的低成本,将是很难想象的事情。
不管Starlink低至千万级别以内造价的商业卫星,还是券商调研报告所称的国内单星成本为4500-6500万/颗,其中卫星载荷的转发器/天线分系统使用的FPGA部件,约200万元左右。
即便排除数据处理性能和供应商产能等因素,可能还买不到几颗类似Actel公司高等级芯片(ONO anti-fuse based) ,仅此一项成本,就足够不现实。
航天和军工作为FPGA最难以被ASIC替代,也是最擅长的垂直细分市场,赛灵思已经把28 nm工艺的7系列芯片,供货周期延长至2040年,莱迪思成为商业航天市场的新进入者。
Xilinx 7 Series static tests
Source:Enhancements on Fault Injection for Xilinx 7 Series and
UltraScale + SRAM Based FPGAs
2009年,NASA研发的空间高性能计算机SpaceCube,使用赛灵思普通商用级FPGA芯片(Virtex-4 FX60),提供关键交汇对接信号,完成哈勃望远镜的维修任务。
2017年,NASA将其先进的异构计算架构、核心专利技术等授权给Genesis公司,迈出商业化的第一步,提升数据处理效能,满足成本和可靠性要求。
除了继续执行政府机构的太空任务,还能使得那些使用更低成本的小卫星私营企业,也能受益。
Source:Miniaturized Platform for Onboard Processing and Analysis
现在已是生态丰富的异构计算加速平台,与Microsemi、Actel以及其它芯片器件配套组合使用的SpaceCube 3.0,在空间板卡级别的人工智能时代,牢牢占据领先身位。
采用异构处理架构,最大程度利用商用级的低成本,或者是宇航级的高可靠,为下一代航天系统提供无以伦比的高性能计算能力。
当人们表述产品质量足过硬时,广告语中不乏“航天产品、军工品质”之类的溢美之词。
以前是不计成本保可靠性,可以花长时间精心打磨产品,现在则是低成本、批量化、快速生产部署。
“Everything we used to take for granted about how you do something, what's accepted, best practices - everything's been questioned”
或许正像IEEE Spectrum在评论航天电子未来发展趋势所说的,过去我们认为理所当然的一切,比如做事的方法,可接受的理念,以及最佳实践等,现在都受到了质疑。
全文完,感谢您的耐心阅读。
参考资料:
[1] Gary M.Swift, Tradeoffs in Flight-Design Upset Mitigation in State-of-the-Art FPGAs:Hardened By Design vs. Design-Level Hardening.
[2] Ken Chapman,A Practical Look at SEU, Effects and Mitigation.
[3] Austin Lesea,Soft Error Derating, or Architectural Vulnerability
[4] Gregory Miller,Gregory R. Allen and Heather Quinn.XRTC Use of Fault Injection to Simulate Upsets in to Simulate Upsets in Reconfigurable FPGAs
[5] Paul Schumacher, SEU Emulation Environment.Xilinx