图片

我们身处“碳基智能”大步迈向“硅基智能”序曲中,前者更像是后者的引导程序,AI平民化时代,万物皆摩尔定律。

越快越好,几乎适用绝大多数场景。

在通往人工智能的征程中,算力无处不在,芯片作用无可替代。

十六年前,就已宣称自己是一家软件公司的英伟达,现已登顶全球第一大市值公司的王位,3600000000000元,还是美刀。

具备软件编程灵活性,又拥有硬件高性能的FPGA,是软件同类,还是属于硬件一派?

有别于专用集成电路(ASIC)需要昂贵的掩膜生产费用,FPGA作为芯片家族成员中的重要成员,无需流片就可定制设计,快速部署使用。

也被称为“平民版”的ASIC。

尤其擅长小批量应用场景。

欧洲巨头空客公司,FPGA作为其数字设计的关键组件,广泛用于空间产品(Space products)、测试单元(Test units)、原型样机(Prototyping)等。

两大厂商、三种类型、十余款芯片型号。

在欧空局的哨兵2号卫星中,共使用249个ICs,其中FPGA的数量是149片,占比近六成之多。

图片

除了通信行业的头部大厂外,像单个客户一次采购金额在近十亿元量级、八万多片FPGAs,已经是行业较为少见的重磅事件。

一架先进F-35战斗机,大约使用3500个各类芯片,其中就包括208片FPGAs。

图片

Source:www.militaryaerospace.com

在航天航空、防务等关键且重要的领域,对先进工艺和技术趋势的影响力和掌控力,与上世纪70年代的巅峰期相比,不可同日而语。

现在所能做的,就大多是对商用芯片买买买。

出于成本考虑,FPGA被广泛用于卫星载荷平台、通信系统、无人机、雷达系统、导弹控制、船用装备、飞行器控制系统等。

Need for Assured FPGA Functionality

图片

Source:Systems Engineering- Critical to Defense Acquisition,2017

速度快慢,距离远近、大小和多少的衡量尺度,通常只是相对概念。

第一个古人类露西(Lucy),距今约320万年;比智人更早出现、脑容量更大的尼安德特人,大约是在数万年前,而人类创造高度文明,用时数千年。

太阳距离人类家园约15亿公里,阳光到达地球的时间大约8分20秒,与我们在手机刷个短视频的用时差不多,也就是随手分分钟的事。

地球在宇宙中的位置

图片

来源:科普中国,sina

数字芯片为代表的硅基智能,以2022年底ChatGPT的横空出世为标志,进入到全面爆发期,进展迅猛。

即便把时间拉长到从上世纪40年代开启的电子管时代开始,极速推进到被马斯克称之为强大得可怕的现阶段,也只是几十年而已。

AI平民化时代的极简进化史(1946-2024)

图片

来源:“无限空间:大音希声,大象无形”,复及科技

数字电路的语义和行为,在技术本质上,都是由0/1二进制实现的时域计算、或者空域计算模式,FPGA芯片更为特殊,两者兼有。

碳基生物离不开太阳,没有不行,太多不好。

硅基智能的芯片,则相反,越靠近,越要命。

太空恶劣运行环境

图片

Source:FPGA development in Defence and Space, Airbus 

借用月之暗面AI工具(Kimi)比较脑洞的话来描述,“FPGA内部的存储器就像是一个复杂的世界,密集的居民区(CRAM),高速主干道(BRAM),繁忙的市场(DRAM),用户的百宝箱(Flip-Flop)等”。

各类存储单元各自扮演重要角色,不仅是数据的“栖息地”,也是系统可靠性的基石。

相对而言,也更容易受外部运行环境影响,被动发生0->1或1->0数据改变,由位翻转(bit flip)诱发的“软错误”或“软失效”现象。

图片

处于出厂状态的FPGA,内部只是空白的门海阵列,位流(bitstream)是芯片物理结构的体现,承载硬件电路的若干创新。

这种创新首先属于FPGA厂商。

图片

既然是半定制的硬件可编程逻辑器件,可设计为类ASIC使用,最终体现在硬件电路层级的个性化应用设计,当然也是终端用户自己的。

相同的应用设计,载入到同一厂商不同器件后,实际的芯片物理结构也完全不同。

用户将FPGA定制为“自己芯片”的示意图

图片

Source:Luna investor presentation,2013

一个包含GTX高速串行通信功能的SoC设计,部署在不同FPGA芯片,其内部硬件电路结构和位流数据分布,各不相同。

图片

FPGA内部不可见的物理世界 

图片

来源:ViewAll软件实测数据,复及科技

随着可编程逻辑器件等新型机载软件在新一代航空装备中的应用,其运行场景和失效机理,较传统嵌入式机载软件要复杂很多。

中国质量报在2015年9月发表的“潜心保障软件安全可靠,铸就航空装备质量之魂”一文中,有如下观点

  • 若再简单套用传统的软件测试、软件安全性分析等质量保证技术,将会事倍功半,无法更好保证此类新型机载软件的质量与可靠性;

  • 适用于新型机载软件的质量保障技术,在未来若干年内将成为航空装备制造的主流趋势

图片

航空器在不同飞行高度的中子单粒子影响全景图

图片

Source:Avionnics Market From Xilinx Perspective

单粒子也被称为“上帝粒子”。

总体来说,被单粒子击中,发生01数据改变的位翻转现象,进而影响芯片功能安全和正常工作,属于罕见的极小概率事件。

某些行业需要遵循相应的功能安全标准IEC61508,以确保产品、设计流程符合相应的安全完整性等级。

细分市场还有特定的规范,其中一些要求在满足总标准基础上,还要更严格,如汽车电子的行业ISO21262。

即便只是地面上运行的电子组件,内外部环境因素作用下,偶发的SEU(Signal Event Upset )现象,也有可能中奖。

图片

受益于技术进步和先进工艺的双重加持,进一步降低了源于芯片器件层面可能诱发的“可靠性”问题,FPGA也不例外。

以十多年前采用28nm工艺,赛灵思的7K-325T芯片为例,相对最易发生单位翻转的配置存储器(CRAM)数据类型,平均故障间隔时间(MTBF),也已经是长达65年之久。

Experimental Beam Testing and Real-Time Soft Error Rates for CRAM

图片

Source:Device Reliability Report,Xilinx UG116(v10.16)

如果发生概率是10的负多少次方,除了专业领域内之外的绝大多数用户来说,与实际可感知的距离范围,过于抽象,比遥远还要远。

但就像网文《剑来》男主陈平安所奉行的那样,行走江湖,即便再有把握、稳操胜算的事情,想要平平安安的,也得时刻提防的就是那些非预期中的“万一”。

Zqny-7000在汽车行业使用时,为避免诱发最高等级安全事故,即共因失效风险(common mode failures),在系统设计和产品开发层面,需要考虑的设计因素,将多达7个。

Enabling immunity to common mode failures at the silicon level

图片

Source:FPGA and Functional Safety Challenges,Xilinx

实现硬件免疫,保障系统安全,是理想状态。

但现实骨感。

因为永远无法实现零风险。

这是由厂商器件及专用EDA、用户自身,以及第三方工具(测试设备/EDA软件)共同组成的生态,组合应用,才能将风险将低至可“容忍”的范围。

在整个设计链条中,各司其职。

共同目标是,能够主动识别风险并进行缓解。

IEC61508 and the Safety Life Cycle

图片

Source:Mitigation of risk to a defined tolerance,Xilinx,2014

在FPGA应用市场中,用户群体呈两头毛尖、中间体量巨大的橄榄形。

不计成本保障可靠性的安全关键领域,向左,主要侧重配置存储器CRAM的测试验证。

一直走在异构计算、硬件加速最前沿的EDA行业,向右。

主要追求对用户存储器、特别是寄存器的观测能力(Full Visibility & Debugging)

现今数字IC设计面对的信号数据,多的已是10亿个级别以上的海量。

How is hardware compilation handled today?

图片

Source:Intel,NVIDIA,Adapteva

在EDA硬件辅助验证行业,用FPGA构建的两大行业产品线(Emulation/Prototyping),以硬件速度仿真,服务用户的芯片设计,加速设计左移。

没有行业标准可言。

用户确保流片一次成功,没有保险可买。

支持的设计容量(Design Capacity)越大、运行速度(Performance)越快、可观测能力(Full Visibility)越强,就越好。

这是用户和EDA厂商的共同追求。

EDA硬件辅助验证服务的三大核心能力

图片

Source:Using emulation to verify today's complex designs,2010

在各个垂直细分的应用行业,用FPGA直接制造产品和系统,用户同样没有保险可买。

在医疗、铁路、机械,以及机载电子等行业,需要遵循相关标准,有些更严格,但都要求满足IEC61508。

其中DO-254 作为机载系统中复杂电子硬件设计的合规性手段,其定义的复杂电子硬件包括:现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)和专用集成电路(ASIC) 等设备。

也是美国在导弹、火箭研制等的参考标准。

FPGA应用开发涉及的行业标准概览

图片

Source:Safety Standards – Where FPGA Plays,Xilinx

作为成熟软件标准 (RTCA DO-178B/EUROCAE ED-12B) 的对应物,在2005年获得美国联邦航空管理局(FAA)正式认可后,要求航空组件的生产制造公司,必须遵循DO-254的流程设计其产品。

关注焦点是硬件设备的可靠性,确保飞行安全。

不管是决定硬件电路结构和功能的CRAM,还是状态机、关键寄存器所用的数据类型DFF,虽然厂商也提供相应的工具和方法,但学习曲线陡峭。

特别是前者,用户难以快速掌握。

图片

在航天航空等领域,长期采用的是项目型、工程化的解决方式。               

2002年,随着SRAM FPGA在空间领域开始得到应用,为了更好应对器件在空间环境下的可靠性、安全性需求,赛灵思公司成立了辐照测试联盟(Xilinx Radiation Test Consortium)

 FPGA芯片内部存储的主要数据类型

图片

Source:Compendium of XRTC Radiation Results on All Single-Event Effects Observed in the Virtex-5QV, 2011,Xilinx

并将2000年和NASA推进器试验室(JPL)在建立的单粒子效应联盟(Single-Event Effects Consortium, SEEC),正式升级为面向境内联盟成员开放的商业化组织,共同研发和使用该大型专用测试设备。

XRTC设备共有两大核心组件,对硬件进行位流故障注入的日常回归测试,以及破坏性测试的辐照试验模块。

图片

Source:中国电子科技集团第XX研究所“大容量FPGA故障注入测试工具(ViewAll软件)单项论证报告”,2017

按照赛灵思公司在年度质量报告提供的数据,在2011年时,已经服务了境内超过100家联盟成员单位。

其巨大的经济价值主要体现在:

  • 分摊昂贵的测试成本

    系列FPGA待测器件往往异常复杂,特别是军用Q系列、宇航级QR,代价高昂

  • 为不同领域的联盟成员引入专家和培养人才

    随着大容量、高性能FPGA设计更为复杂,测试难度随之增大

  • 为航天航空、防务领域提供应用设计和工程实现等支持

    帮助客户应用最佳实践,更高效地调试,解决问题并加强客户对 Xilinx 技术的理解

图片

Source:Quality Report,Xilinx, 2011

在对可靠性需求最高的航天领域,日常性硬件故障注入测试,目的是获取更精准的动态翻转截面数据等用途,是行业“黄金法则”、辐照试验不可或缺的补充。

在其它安全关键领域,厂商也提供相应的工具或技术手段。

赛灵思公司的软错误缓解IP核(SEM IP)。

芯片厂商视角下的技术保障措施

图片

Source:Xilinx

按照其使用指引,除了用于融入设计之后对CRAM数据的在线监测和修复之外,也可以像桌面型的“辐射源”一样,进行硬件故障注入,对配置硬件电路的位流数据,进行回读回写。

用于非破坏性的日常回归测试。

而且更好。

图片

Source:A Practical Look at SEU Effects and Mitigation for Safety,

Certification & Security,Xilinx

第二大厂商Altera,面向以下行业用户,也提供类似同款工具。

■ 数据中心(Data Center)

■ 网络设备(Networking Equipment)

■ 航空电子和卫星(Avionics and Satellites)

图片

Source:Altera,2014

在航空等重要且关键领域应用,更有“双V”验证之说。

作为系统工程的核心思想,借用朱亮博士在科学网博客上的科普解释。

  • Verification,中文翻译验证,把事情做对,do things right

  • Validation,中文是确认,就是做对的事情,do right things

    简化版的双V验证确认开发流程

图片

source:https://blog.sciencenet.cn

左边是数字逻辑世界,右边是芯片物理世界。

在FPGA行业,数十年来,从源码到网表,已经诞生了诸多公司,提供各种EDA工具和解决方案,剩下为数不多的创新机会,就在驱动芯片硬件运行的位流级别(二进制数据)的专用EDA软件。

在包括汽车电子在内,FPGA设计流程的各个级别进行测试验证,以保证功能安全需求。

FPFA Development Lifecycle – IEC61508

图片

source:FPGA Development IEC61508 and ISO26262,Xilinx,2014

实物级别的硬件(Hardware)故障注入测试,因与芯片底层的物理结构密切相关,对于用户,都是“不可见”的黑盒子。

设计开发阶段,在各个级别开展故障注入进行验证,成为通行且有效的方法。

比如欧洲宇航防务集团的FPGA开发流程中,从芯片硬件电路结构设计(Static Design)后,分别对硬件电路行为设计(Dynamic Design)的故障处理逻辑,综合后网表(硬件电路设计结构)、硬件安全解决方案有效性(TMR)进行故障注入测试。

FPGA在安全关键领域应用开发和故障注入测试流程

图片

Source:EADS Astrium

已经用了双模、三模等设计加固措施,难道还需要对硬件做故障注入?

或者我们的设计需求没有那么高,也需要做类似的测试验证?

就像三星网络安全专家Victoria Coleman所言,再严密完备的设计开发流程,不是产品本身的结果负责。

更多只是对生产过程的保障。

用户所能做的,只能是更多的验证。

图片

Source:XRTC Use of Fault Injection to Simulate Upsets

in Reconfigurable FPGAs, Xilinx, 2009

服务于设计阶段的FPGA硬件故障注入,与源码和网表阶段的方式相比,更接近实际运行情况,具有低成本、高效率等应用优势。

比采用破坏性的物理验证方式,更省成本比软,可获得性更高。

比软件仿真方式更有效率。

彼此不是竞合关系。

Emulation-based fault Injection

图片

Source:Enhancements on Fault Injection for Xilinx 7 Series

and UltraScale + SRAM Based FPGAs,2023

一直走在异构计算、硬件加速最前沿的EDA行业,率先创造硬件仿真(Emulation)新词。

在数字仿真器和FPGA原型验证之间,既开创了新的EDA服务品类,也打开了一个全新的市场空间。

1988年成立的Quickturn公司(已被Cadence并购),作为首家提供专业硬件辅助验证服务的鼻祖,其最先使用的,是只有6000个逻辑门的XC3090 FPGA。

通过把多块FPGA组装成一个硬件平台,可支持数万门规模的IC设计。

创新无处不在、无中生有的硬件仿真Emulation

图片

Source:行业往事:天下武功,皆出少林,复及科技,2023

技术加速发展且趋向普惠,EDA也不例外。

近年来,随着航天航空、军工、汽车电子等领域对IC设计的安全需求,领先的EDA厂商,在整个服务链条中,为用户提供的数字工具,在各个级别进行故障故障注入测试验证。

比如西门子的fusa解决方案。

Digital IC Fault Injection

图片

Source:Siemens EDA,2023

原先只有非常昂贵硬件仿真平台,才具备的诸多先进软件功能,也逐渐并平移或延展至FPGA原型验证系统,如故障注入加速功能。

在很大程度上,提供EDA硬件辅助验证服务,与FPGA芯片进行数据交互的诸多软件功能,与芯片厂商的专用EDA工具,技术同源。

除了赛灵思之外,阿尔特拉为重新争夺市场份额,2020年时,为旗下大容量FPGA,新推出寄存器的读写功能。

Register state readback and writeback

图片

Source:S10-MX OVERVIEW,Intel, 2020

借用国产FPGA领先厂商资深高管边总的话说,所谓硬件故障注入嘛,都可以看见信号了,不管是改写0还是写入1,还不是随手的事?

人狠话不多,足够简明扼要。

与突出SEU免疫功能,主打低功耗立足江湖的Microsemi公司,不谋而合。

  • Observability:对芯片内部数据的全可观测能力

  • Controllability:对FPGA运行状态的可控制能力

图片

Source:为什么选择FPGA而非MCU,张银凤, 2024

与SRAM型FPGA相比,SEU免疫的芯片(反熔丝、闪存等),其安全性和可靠主要表现为不受“配置翻转”影响。

  • 无配置刷新(Scrubbing)

  • 也无需三模冗余(TMR)

前者可能因大气中子、辐射等外部运行环境因素,有可能出现功能故障,所以需要检测配置错误,并进行在线刷新。

图片

Source:Microchip, 2024

应用编程难度大、开发周期长、从业人员少,是FPGA行业长期的共性难题,不仅限于大容量先进芯片。

2016年,Microsemi借鉴硬件辅助验证市场的成熟经验,面向旗下的中小规模器件,正式推出先进的调试解决方案。

现在已扩展到支持包括反熔丝在内的更多芯片型号。

Microsemi Debug Solution

图片

Source:Spatial Debug & Debug without re-programming in Microsemi FPGAs,

Systems Validation Group, Microsemi, 2016

2020年后,该工具的迭代速度明显加快,持续升级更为频繁。

比两大头部厂商走得更早,也更远。

收购了该公司的微芯科技(Microchip),最新市值曾摸到501.7亿美元的新高度,约3660亿人民币。

天然具有硬件基因的FPGA,在行业头部公司的创新尝试中,在设计输入端越来越向软件靠近,争取更多的工程师,也能上手使用。

如赛灵思的Vitis,英特尔的OneAPI等。

How is Hardware Different from Software?

图片

Source:Silicon Compilers -Version 2.0,DARPA

以高性能著称的SRAM FPGA,从上世纪80年代的因仿真加速而生,到异构计算时代的算力加速而兴,再到现在的AI加速而盛,已进入到不惑之年。

虽然赛灵思公司创立之初,主要面向仿真和教育市场,但如今包括其它各个厂商在内的芯片,已被广泛用于生产各种产品和系统。

既是半导体行业的创新先锋,更是老而弥坚的沙场老兵。

FPGA芯片的发展演进路径

图片

不管是在地面,还是遥远的太空,特别擅长于图像、视频等非结构化的数据流处理。

碳基智能的人类,一直努力追求的硅基智能,进入信息化社会后,从马力到算力,从瓦特到比特的进程,驶入快车道。

只要摩尔定律演绎的现代奇迹还在继续,FPGA就有独特且不可替代的巨大价值。

越来越昂贵的流片生产制造成本

图片

Source:Assessing IDEA Difficult Levels

FPGA芯片,就像是侏罗纪早期就存在的鲟鱼,人工培育后的可食用品类,加工打理很费劲,但味道无比鲜美。

绝对的高鲜高蛋白。

半导体行业,具有通用芯片和专用芯片的钟摆效应,使得半定制化的FPGA,正迎来市场和技术形成共振的黄金发展时期。

ASIC & FPGA trends wave

图片

Source: Dr. Makimoto

各个行业都会经历数字化、自动化,然后智能化。

人工经验不可复制,难以规模推广使用。

先进易用的EDA工具,是用户得以降低经验门槛,减少不确定性的利器。

Domain Specific Flow

图片

Source:User focuses on application, including system performance, Xilinx, 2006

道阻且长,行则将至。

就像赛灵思早在2006年说的那样,不管是用于日常调试,还是安全验证等高级应用,您所需要的,仅是一款合适的工具。

告别硬件底层细节的痛苦,加速取得成功。

省钱赚钱两相宜(Save Money&Make Money)

全文完,感谢您的耐心阅读。

图片

Logo

智能硬件社区聚焦AI智能硬件技术生态,汇聚嵌入式AI、物联网硬件开发者,打造交流分享平台,同步全国赛事资讯、开展 OPC 核心人才招募,助力技术落地与开发者成长。

更多推荐