解锁FPGA的故障免疫密码
FPGA又被称为数字芯片之母,有别于专用集成电路(ASIC)需要昂贵的掩膜生产费用,作为芯片家族成员中的重要成员,无需流片就可定制设计,快速部署使用,是航天军工,EDA硬件辅助验证等关键且重要领域,具有无可替代的应用价值,极具潜力的市场容量空间,正迎来属于自己的黄金发展期。

我们身处“碳基智能”大步迈向“硅基智能”序曲中,前者更像是后者的引导程序,AI平民化时代,万物皆摩尔定律。
越快越好,几乎适用绝大多数场景。
在通往人工智能的征程中,算力无处不在,芯片作用无可替代。
十六年前,就已宣称自己是一家软件公司的英伟达,现已登顶全球第一大市值公司的王位,3600000000000元,还是美刀。
具备软件编程灵活性,又拥有硬件高性能的FPGA,是软件同类,还是属于硬件一派?

有别于专用集成电路(ASIC)需要昂贵的掩膜生产费用,FPGA作为芯片家族成员中的重要成员,无需流片就可定制设计,快速部署使用。
也被称为“平民版”的ASIC。
尤其擅长小批量应用场景。

欧洲巨头空客公司,FPGA作为其数字设计的关键组件,广泛用于空间产品(Space products)、测试单元(Test units)、原型样机(Prototyping)等。
两大厂商、三种类型、十余款芯片型号。
在欧空局的哨兵2号卫星中,共使用249个ICs,其中FPGA的数量是149片,占比近六成之多。

除了通信行业的头部大厂外,像单个客户一次采购金额在近十亿元量级、八万多片FPGAs,已经是行业较为少见的重磅事件。
一架先进F-35战斗机,大约使用3500个各类芯片,其中就包括208片FPGAs。

Source:www.militaryaerospace.com
在航天航空、防务等关键且重要的领域,对先进工艺和技术趋势的影响力和掌控力,与上世纪70年代的巅峰期相比,不可同日而语。
现在所能做的,就大多是对商用芯片买买买。
出于成本考虑,FPGA被广泛用于卫星载荷平台、通信系统、无人机、雷达系统、导弹控制、船用装备、飞行器控制系统等。
Need for Assured FPGA Functionality

Source:Systems Engineering- Critical to Defense Acquisition,2017
速度快慢,距离远近、大小和多少的衡量尺度,通常只是相对概念。
第一个古人类露西(Lucy),距今约320万年;比智人更早出现、脑容量更大的尼安德特人,大约是在数万年前,而人类创造高度文明,用时数千年。
太阳距离人类家园约15亿公里,阳光到达地球的时间大约8分20秒,与我们在手机刷个短视频的用时差不多,也就是随手分分钟的事。
地球在宇宙中的位置

来源:科普中国,sina
数字芯片为代表的硅基智能,以2022年底ChatGPT的横空出世为标志,进入到全面爆发期,进展迅猛。
即便把时间拉长到从上世纪40年代开启的电子管时代开始,极速推进到被马斯克称之为强大得可怕的现阶段,也只是几十年而已。
AI平民化时代的极简进化史(1946-2024)

来源:“无限空间:大音希声,大象无形”,复及科技
数字电路的语义和行为,在技术本质上,都是由0/1二进制实现的时域计算、或者空域计算模式,FPGA芯片更为特殊,两者兼有。
碳基生物离不开太阳,没有不行,太多不好。
硅基智能的芯片,则相反,越靠近,越要命。
太空恶劣运行环境

Source:FPGA development in Defence and Space, Airbus
借用月之暗面AI工具(Kimi)比较脑洞的话来描述,“FPGA内部的存储器就像是一个复杂的世界,密集的居民区(CRAM),高速主干道(BRAM),繁忙的市场(DRAM),用户的百宝箱(Flip-Flop)等”。
各类存储单元各自扮演重要角色,不仅是数据的“栖息地”,也是系统可靠性的基石。
相对而言,也更容易受外部运行环境影响,被动发生0->1或1->0数据改变,由位翻转(bit flip)诱发的“软错误”或“软失效”现象。

处于出厂状态的FPGA,内部只是空白的门海阵列,位流(bitstream)是芯片物理结构的体现,承载硬件电路的若干创新。
这种创新首先属于FPGA厂商。

既然是半定制的硬件可编程逻辑器件,可设计为类ASIC使用,最终体现在硬件电路层级的个性化应用设计,当然也是终端用户自己的。
相同的应用设计,载入到同一厂商不同器件后,实际的芯片物理结构也完全不同。
用户将FPGA定制为“自己芯片”的示意图

Source:Luna investor presentation,2013
一个包含GTX高速串行通信功能的SoC设计,部署在不同FPGA芯片,其内部硬件电路结构和位流数据分布,各不相同。

FPGA内部不可见的物理世界

来源:ViewAll软件实测数据,复及科技
随着可编程逻辑器件等新型机载软件在新一代航空装备中的应用,其运行场景和失效机理,较传统嵌入式机载软件要复杂很多。
中国质量报在2015年9月发表的“潜心保障软件安全可靠,铸就航空装备质量之魂”一文中,有如下观点
-
若再简单套用传统的软件测试、软件安全性分析等质量保证技术,将会事倍功半,无法更好保证此类新型机载软件的质量与可靠性;
-
适用于新型机载软件的质量保障技术,在未来若干年内将成为航空装备制造的主流趋势

航空器在不同飞行高度的中子单粒子影响全景图

Source:Avionnics Market From Xilinx Perspective
单粒子也被称为“上帝粒子”。
总体来说,被单粒子击中,发生01数据改变的位翻转现象,进而影响芯片功能安全和正常工作,属于罕见的极小概率事件。
某些行业需要遵循相应的功能安全标准IEC61508,以确保产品、设计流程符合相应的安全完整性等级。
细分市场还有特定的规范,其中一些要求在满足总标准基础上,还要更严格,如汽车电子的行业ISO21262。
即便只是地面上运行的电子组件,内外部环境因素作用下,偶发的SEU(Signal Event Upset )现象,也有可能中奖。

受益于技术进步和先进工艺的双重加持,进一步降低了源于芯片器件层面可能诱发的“可靠性”问题,FPGA也不例外。
以十多年前采用28nm工艺,赛灵思的7K-325T芯片为例,相对最易发生单位翻转的配置存储器(CRAM)数据类型,平均故障间隔时间(MTBF),也已经是长达65年之久。
Experimental Beam Testing and Real-Time Soft Error Rates for CRAM

Source:Device Reliability Report,Xilinx UG116(v10.16)
如果发生概率是10的负多少次方,除了专业领域内之外的绝大多数用户来说,与实际可感知的距离范围,过于抽象,比遥远还要远。
但就像网文《剑来》男主陈平安所奉行的那样,行走江湖,即便再有把握、稳操胜算的事情,想要平平安安的,也得时刻提防的就是那些非预期中的“万一”。
Zqny-7000在汽车行业使用时,为避免诱发最高等级安全事故,即共因失效风险(common mode failures),在系统设计和产品开发层面,需要考虑的设计因素,将多达7个。
Enabling immunity to common mode failures at the silicon level

Source:FPGA and Functional Safety Challenges,Xilinx
实现硬件免疫,保障系统安全,是理想状态。
但现实骨感。
因为永远无法实现零风险。
这是由厂商器件及专用EDA、用户自身,以及第三方工具(测试设备/EDA软件)共同组成的生态,组合应用,才能将风险将低至可“容忍”的范围。
在整个设计链条中,各司其职。
共同目标是,能够主动识别风险并进行缓解。
IEC61508 and the Safety Life Cycle

Source:Mitigation of risk to a defined tolerance,Xilinx,2014
在FPGA应用市场中,用户群体呈两头毛尖、中间体量巨大的橄榄形。
不计成本保障可靠性的安全关键领域,向左,主要侧重配置存储器CRAM的测试验证。
一直走在异构计算、硬件加速最前沿的EDA行业,向右。
主要追求对用户存储器、特别是寄存器的观测能力(Full Visibility & Debugging)。
现今数字IC设计面对的信号数据,多的已是10亿个级别以上的海量。
How is hardware compilation handled today?

Source:Intel,NVIDIA,Adapteva
在EDA硬件辅助验证行业,用FPGA构建的两大行业产品线(Emulation/Prototyping),以硬件速度仿真,服务用户的芯片设计,加速设计左移。
没有行业标准可言。
用户确保流片一次成功,没有保险可买。
支持的设计容量(Design Capacity)越大、运行速度(Performance)越快、可观测能力(Full Visibility)越强,就越好。
这是用户和EDA厂商的共同追求。
EDA硬件辅助验证服务的三大核心能力

Source:Using emulation to verify today's complex designs,2010
在各个垂直细分的应用行业,用FPGA直接制造产品和系统,用户同样没有保险可买。
在医疗、铁路、机械,以及机载电子等行业,需要遵循相关标准,有些更严格,但都要求满足IEC61508。
其中DO-254 作为机载系统中复杂电子硬件设计的合规性手段,其定义的复杂电子硬件包括:现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)和专用集成电路(ASIC) 等设备。
也是美国在导弹、火箭研制等的参考标准。
FPGA应用开发涉及的行业标准概览

Source:Safety Standards – Where FPGA Plays,Xilinx
作为成熟软件标准 (RTCA DO-178B/EUROCAE ED-12B) 的对应物,在2005年获得美国联邦航空管理局(FAA)正式认可后,要求航空组件的生产制造公司,必须遵循DO-254的流程设计其产品。
关注焦点是硬件设备的可靠性,确保飞行安全。
不管是决定硬件电路结构和功能的CRAM,还是状态机、关键寄存器所用的数据类型DFF,虽然厂商也提供相应的工具和方法,但学习曲线陡峭。
特别是前者,用户难以快速掌握。

在航天航空等领域,长期采用的是项目型、工程化的解决方式。
2002年,随着SRAM FPGA在空间领域开始得到应用,为了更好应对器件在空间环境下的可靠性、安全性需求,赛灵思公司成立了辐照测试联盟(Xilinx Radiation Test Consortium)。
FPGA芯片内部存储的主要数据类型

Source:Compendium of XRTC Radiation Results on All Single-Event Effects Observed in the Virtex-5QV, 2011,Xilinx
并将2000年和NASA推进器试验室(JPL)在建立的单粒子效应联盟(Single-Event Effects Consortium, SEEC),正式升级为面向境内联盟成员开放的商业化组织,共同研发和使用该大型专用测试设备。
XRTC设备共有两大核心组件,对硬件进行位流故障注入的日常回归测试,以及破坏性测试的辐照试验模块。

Source:中国电子科技集团第XX研究所“大容量FPGA故障注入测试工具(ViewAll软件)单项论证报告”,2017
按照赛灵思公司在年度质量报告提供的数据,在2011年时,已经服务了境内超过100家联盟成员单位。
其巨大的经济价值主要体现在:
-
分摊昂贵的测试成本
系列FPGA待测器件往往异常复杂,特别是军用Q系列、宇航级QR,代价高昂
-
为不同领域的联盟成员引入专家和培养人才
随着大容量、高性能FPGA设计更为复杂,测试难度随之增大
-
为航天航空、防务领域提供应用设计和工程实现等支持
帮助客户应用最佳实践,更高效地调试,解决问题并加强客户对 Xilinx 技术的理解

Source:Quality Report,Xilinx, 2011
在对可靠性需求最高的航天领域,日常性硬件故障注入测试,目的是获取更精准的动态翻转截面数据等用途,是行业“黄金法则”、辐照试验不可或缺的补充。
在其它安全关键领域,厂商也提供相应的工具或技术手段。
赛灵思公司的软错误缓解IP核(SEM IP)。
芯片厂商视角下的技术保障措施

Source:Xilinx
按照其使用指引,除了用于融入设计之后对CRAM数据的在线监测和修复之外,也可以像桌面型的“辐射源”一样,进行硬件故障注入,对配置硬件电路的位流数据,进行回读回写。
用于非破坏性的日常回归测试。
而且更好。

Source:A Practical Look at SEU Effects and Mitigation for Safety,
Certification & Security,Xilinx
第二大厂商Altera,面向以下行业用户,也提供类似同款工具。
■ 数据中心(Data Center)
■ 网络设备(Networking Equipment)
■ 航空电子和卫星(Avionics and Satellites)

Source:Altera,2014
在航空等重要且关键领域应用,更有“双V”验证之说。
作为系统工程的核心思想,借用朱亮博士在科学网博客上的科普解释。
-
Verification,中文翻译验证,把事情做对,do things right
-
Validation,中文是确认,就是做对的事情,do right things
简化版的双V验证确认开发流程

source:https://blog.sciencenet.cn
左边是数字逻辑世界,右边是芯片物理世界。
在FPGA行业,数十年来,从源码到网表,已经诞生了诸多公司,提供各种EDA工具和解决方案,剩下为数不多的创新机会,就在驱动芯片硬件运行的位流级别(二进制数据)的专用EDA软件。
在包括汽车电子在内,FPGA设计流程的各个级别进行测试验证,以保证功能安全需求。
FPFA Development Lifecycle – IEC61508

source:FPGA Development IEC61508 and ISO26262,Xilinx,2014
实物级别的硬件(Hardware)故障注入测试,因与芯片底层的物理结构密切相关,对于用户,都是“不可见”的黑盒子。
设计开发阶段,在各个级别开展故障注入进行验证,成为通行且有效的方法。
比如欧洲宇航防务集团的FPGA开发流程中,从芯片硬件电路结构设计(Static Design)后,分别对硬件电路行为设计(Dynamic Design)的故障处理逻辑,综合后网表(硬件电路设计结构)、硬件安全解决方案有效性(TMR)进行故障注入测试。
FPGA在安全关键领域应用开发和故障注入测试流程

Source:EADS Astrium
已经用了双模、三模等设计加固措施,难道还需要对硬件做故障注入?
或者我们的设计需求没有那么高,也需要做类似的测试验证?
就像三星网络安全专家Victoria Coleman所言,再严密完备的设计开发流程,不是产品本身的结果负责。
更多只是对生产过程的保障。
用户所能做的,只能是更多的验证。

Source:XRTC Use of Fault Injection to Simulate Upsets
in Reconfigurable FPGAs, Xilinx, 2009
服务于设计阶段的FPGA硬件故障注入,与源码和网表阶段的方式相比,更接近实际运行情况,具有低成本、高效率等应用优势。
比采用破坏性的物理验证方式,更省成本比软,可获得性更高。
比软件仿真方式更有效率。
彼此不是竞合关系。
Emulation-based fault Injection

Source:Enhancements on Fault Injection for Xilinx 7 Series
and UltraScale + SRAM Based FPGAs,2023
一直走在异构计算、硬件加速最前沿的EDA行业,率先创造硬件仿真(Emulation)新词。
在数字仿真器和FPGA原型验证之间,既开创了新的EDA服务品类,也打开了一个全新的市场空间。
1988年成立的Quickturn公司(已被Cadence并购),作为首家提供专业硬件辅助验证服务的鼻祖,其最先使用的,是只有6000个逻辑门的XC3090 FPGA。
通过把多块FPGA组装成一个硬件平台,可支持数万门规模的IC设计。
创新无处不在、无中生有的硬件仿真Emulation

Source:行业往事:天下武功,皆出少林,复及科技,2023
技术加速发展且趋向普惠,EDA也不例外。
近年来,随着航天航空、军工、汽车电子等领域对IC设计的安全需求,领先的EDA厂商,在整个服务链条中,为用户提供的数字工具,在各个级别进行故障故障注入测试验证。
比如西门子的fusa解决方案。
Digital IC Fault Injection

Source:Siemens EDA,2023
原先只有非常昂贵硬件仿真平台,才具备的诸多先进软件功能,也逐渐并平移或延展至FPGA原型验证系统,如故障注入加速功能。
在很大程度上,提供EDA硬件辅助验证服务,与FPGA芯片进行数据交互的诸多软件功能,与芯片厂商的专用EDA工具,技术同源。
除了赛灵思之外,阿尔特拉为重新争夺市场份额,2020年时,为旗下大容量FPGA,新推出寄存器的读写功能。
Register state readback and writeback

Source:S10-MX OVERVIEW,Intel, 2020
借用国产FPGA领先厂商资深高管边总的话说,所谓硬件故障注入嘛,都可以看见信号了,不管是改写0还是写入1,还不是随手的事?
人狠话不多,足够简明扼要。
与突出SEU免疫功能,主打低功耗立足江湖的Microsemi公司,不谋而合。
-
Observability:对芯片内部数据的全可观测能力
-
Controllability:对FPGA运行状态的可控制能力

Source:为什么选择FPGA而非MCU,张银凤, 2024
与SRAM型FPGA相比,SEU免疫的芯片(反熔丝、闪存等),其安全性和可靠主要表现为不受“配置翻转”影响。
-
无配置刷新(Scrubbing)
-
也无需三模冗余(TMR)
前者可能因大气中子、辐射等外部运行环境因素,有可能出现功能故障,所以需要检测配置错误,并进行在线刷新。

Source:Microchip, 2024
应用编程难度大、开发周期长、从业人员少,是FPGA行业长期的共性难题,不仅限于大容量先进芯片。
2016年,Microsemi借鉴硬件辅助验证市场的成熟经验,面向旗下的中小规模器件,正式推出先进的调试解决方案。
现在已扩展到支持包括反熔丝在内的更多芯片型号。
Microsemi Debug Solution

Source:Spatial Debug & Debug without re-programming in Microsemi FPGAs,
Systems Validation Group, Microsemi, 2016
2020年后,该工具的迭代速度明显加快,持续升级更为频繁。
比两大头部厂商走得更早,也更远。
收购了该公司的微芯科技(Microchip),最新市值曾摸到501.7亿美元的新高度,约3660亿人民币。
天然具有硬件基因的FPGA,在行业头部公司的创新尝试中,在设计输入端越来越向软件靠近,争取更多的工程师,也能上手使用。
如赛灵思的Vitis,英特尔的OneAPI等。
How is Hardware Different from Software?

Source:Silicon Compilers -Version 2.0,DARPA
以高性能著称的SRAM FPGA,从上世纪80年代的因仿真加速而生,到异构计算时代的算力加速而兴,再到现在的AI加速而盛,已进入到不惑之年。
虽然赛灵思公司创立之初,主要面向仿真和教育市场,但如今包括其它各个厂商在内的芯片,已被广泛用于生产各种产品和系统。
既是半导体行业的创新先锋,更是老而弥坚的沙场老兵。
FPGA芯片的发展演进路径

不管是在地面,还是遥远的太空,特别擅长于图像、视频等非结构化的数据流处理。
碳基智能的人类,一直努力追求的硅基智能,进入信息化社会后,从马力到算力,从瓦特到比特的进程,驶入快车道。
只要摩尔定律演绎的现代奇迹还在继续,FPGA就有独特且不可替代的巨大价值。
越来越昂贵的流片生产制造成本

Source:Assessing IDEA Difficult Levels
FPGA芯片,就像是侏罗纪早期就存在的鲟鱼,人工培育后的可食用品类,加工打理很费劲,但味道无比鲜美。
绝对的高鲜高蛋白。
半导体行业,具有通用芯片和专用芯片的钟摆效应,使得半定制化的FPGA,正迎来市场和技术形成共振的黄金发展时期。
ASIC & FPGA trends wave

Source: Dr. Makimoto
各个行业都会经历数字化、自动化,然后智能化。
人工经验不可复制,难以规模推广使用。
先进易用的EDA工具,是用户得以降低经验门槛,减少不确定性的利器。
Domain Specific Flow

Source:User focuses on application, including system performance, Xilinx, 2006
道阻且长,行则将至。
就像赛灵思早在2006年说的那样,不管是用于日常调试,还是安全验证等高级应用,您所需要的,仅是一款合适的工具。
告别硬件底层细节的痛苦,加速取得成功。
省钱赚钱两相宜(Save Money&Make Money)。
全文完,感谢您的耐心阅读。

更多推荐




所有评论(0)