原始研究的文章

Front.Electron。,11 August 2022
秒。集成电路和超大规模集成
卷3 - 2022 | https://doi.org/10.3389/felec.2022.898273

AI-PiM-Extending RISC-V处理器与Processing-in-Memory AI推理功能单元的物联网的边缘

电子与计算机工程系,美国弗吉尼亚州夏洛茨维尔的弗吉尼亚大学

人工智能(AI)的最新进展“better-than-human”准确性在图像分类等各种任务和围棋的成本指数增加人工神经网络的大小。这导致人工智能硬件解决方案成为严重内存受限和努力保持日益“冯诺依曼瓶颈”。Processing-in-Memory (PiM)体系结构提供了一个优秀的解决方案来缓解的冯诺依曼瓶颈嵌入计算功能在内存和减少内存和处理器之间的数据流量。但PiM加速器打破标准冯诺依曼的编程模型的内存和计算操作融合在一起会阻碍他们的集成标准计算堆栈。迫切要求的PiM加速器系统级的解决方案,充分利用人工智能应用程序的端到端加速度。本文介绍了AI-PiM作为解决方案填补这一研究空白。AI-PiM提出了一种硬件,ISA和软件合作设计方法,允许集成的PiM加速器RISC-V处理器管道功能执行单元。AI-PiM也扩展了RISC-V ISA定制指令目标PiM功能单元直接导致他们与处理器的紧密集成。这紧密集成为边缘AI设备尤其重要,需要处理人工智能和non-AI任务由于区域在相同的硬件上,权力,大小和成本约束。AI-PiM ISA扩展公开PiM硬件功能软件程序员允许高效的应用程序映射到PiM的硬件。 AI-PiM adds support for custom ISA extensions to the complete software stack including compiler, assembler, linker, simulator and profiler to ensure programmability and evaluation with popular AI domain-specific languages and frameworks like TensorFlow, PyTorch, MXNet, Keras etc. AI-PiM improves the performance for vector-matrix multiplication (VMM) kernel by 17.63x and provides a mean speed-up of 2.74x for MLPerf Tiny benchmark compared to RV64IMC RISC-V baseline. AI-PiM also speeds-up MLPerf Tiny benchmark inference cycles by 2.45x (average) compared to state-of-the-art Arm Cortex-A72 processor.

1介绍

有一个不断增长的需求人工智能(AI)和基于机器学习(ML)的系统自从毫升模型他et al。(2016)实现better-than-human准确性 $(\approx 95年 %)$ 在ImageNet大规模视觉识别的挑战(Russakovsky et al。(2015))和深层神经网络(款)像AlphaGo (银et al。(2016)打败了人类冠军。这些大型的人工神经网络(ann)最初设计为托管在大计算服务器cpu和gpu集群组成的。但在过去的几年里,人工智能的应用不断扩大从云计算和物联网的边缘(物联网)。低成本和低功耗微处理器和微控制器单元(MCU)正在针对过程边缘人工智能应用程序以实现真正的目标智能物联网和这类计算被称为tinyML (监狱长和Situnayake (2019))。tinyML设备和边缘AI的目标一般是处理数据接近数据生成源物联网传感器和减少传输的数据量。AI提供边缘增强处理用户数据的安全和隐私的个人消费设备。这种本地处理的数据也提高了服务质量(QoS)在没有网络覆盖的地区,延迟响应,极大降低了沟通成本和带宽要求大量数据从边缘设备到云上。

RISC-V (沃特曼et al。(2014))和手臂是两个最广泛使用的指令集架构(ISA) tinyML和边缘的硬件设备。但开源RISC-V ISA提供额外的优势降低成本的优势物联网硬件通过删除相关的许可使用费成本与其他边缘像手臂处理器架构。许多人工智能加速器也提出在文学(陈et al。(2016);Jouppi et al。(2017);Yazdanbakhsh et al。(2021);安德森et al。(2021))满足人工智能计算和内存密集型工作负载的需求,像深神经网络(款)。Processing-in-memory (PiM)为基础的人工智能加速器加速器是一个这样的类特别适合于缓解memory-wall问题(梅奥(1991);沃尔夫和麦基(1995))(也称为冯诺依曼瓶颈)通过最小化之间的运动数据处理器和内存,加快人工智能工作负载的计算优势。PiM加速器还可以基于SRAM等不同的内存技术(埃克特et al。(2018);董et al . (2020);Zhang et al。(2017)),DRAM (罗伊et al。(2021);瑟哈德里et al。(2017);Hajinazar et al。(2021))或RRAM等新兴的记忆(气et al . (2016);李et al。(2020);周et al。(2019)),可以是不同的大小取决于底层的内存技术。最先进的PiM AI加速器内存和计算功能融合在一起,因此偏离标准的冯诺依曼体系结构。这使得PiM加速器项目很难,很难整合标准计算堆栈因为他们不遵循传统的编程模型。这些加速器需要特殊的编译器来编排数据移动和加速器(李et al。(2020);贾庆林et al。(2022)),每一个新的加速器的设计需要一个新的编译器的设计。标准的C / c++和深度学习编译器难以计算有效地映射到PiM加速器没有一个中间特别PiM编译器。因此,要充分利用PiM的优点为人工智能应用程序加速器在物联网的边缘,一个标准的设计方法需要启用集成PiM加速器的传统计算堆栈。

在本文中,我们目前AI-PiM硬件,ISA和软件研究桥梁合作设计解决方案。AI-PiM扩展了RISC-V处理器管道通过集成PiM加速器的细粒度的功能单元。AI-PiM也扩展了RISC-V ISA定制指令直接目标PiM功能单元,使这些加速器透明软件栈,便于各种计算内核映射到PiM功能单元。图1显示了顶级AI-PiM的概述。3.2节解释了PiM加速器的紧密集成AI-PiM详细方法。章节3.3和3.4节解释完整的端到端硬件、ISA和AI-PiM软件合作设计方法。

图1

图1。顶级的概述AI-PiM硬件、ISA和软件合作设计方法。(一)RISC-V硬件扩展的基于PiM的向量矩阵乘法(VMM)功能单元。(B)自定义指令扩展添加到RISC-V ISA暴露VMM程序员PiM硬件的功能。(C)完整的软件开发工具包(SDK)包括编译器、模拟器等然后扩展通信硬件和ISA增强软件堆栈。

AI-PiM类似发育演化路径的浮点单位原本为农业科学计算浮点协处理器的大量类似于大型批量大小的人工智能工作负载上的电流PiM加速器。但浮点计算变得更加普遍,浮点加速器成为的一部分处理器硬件浮点单元(FPU)连同浮点指令成为处理器ISA的一部分。我们相信PiM加速器AI加速度将遵循类似的路径和AI-PiM这个前瞻性的问题提出了解决方案。本文的主要贡献有:

•一个标准化的硬件、ISA和软件合作设计方法将PiM加速器在主处理器管道。

•治疗的PiM加速器作为一等公民RISC-V处理器管道与之前的作品将PiM硬件协同处理器或加速器集成在一个系统总线。

•设计空间探索PiM功能单元,以确定最佳规模的PiM向量矩阵相乘(VMM)单位物联网优势智能工作负载。

•系统级加速tinyML成套神经网络模型的模拟结果与现有应用程序和比较优势的人工智能硬件解决方案。

2背景

“内存墙”问题在计算机体系结构(沃尔夫和麦基(1995);梅奥(1991)冯诺依曼结构)暴露的局限性传统与单独的硬件计算和内存。这种分离逻辑处理计算块的内存块用于存储数据和程序会导致系统性能有限的内存总线带宽等内存密集型工作负载的人工智能。前几个提案已经在文献中拉近内存和计算单位,以减少或删除内存墙。族长(帕特森et al。(1997))架构提出捏造一个计算逻辑处理器在DRAM内存芯片。这是一个早期的提议PiM模型但并不被广泛接受由于制造工艺的限制。但在引入3 d堆叠内存技术小君et al . (2017)和Jeddeloh和Keeth (2012)就像之前,许多高et al。(2017)嵌入式智能处理单元(APU)的基本逻辑死3 d堆叠主内存。这种技术所示图2一个降低了内存墙通过引入near-memory处理和最小化内存带宽的压力。

图2

图2。不同processing-in-memory加速人工智能应用程序的硬件架构。(一)附近的3 d内存处理解决方案嵌入人工智能处理功能的基本逻辑死3 d堆叠的记忆。(B)Processing-in-memory解决方案转换的一部分内存层次结构(SRAM, DRAM或NVM)到一个专用的人工智能处理单元(APU)。(C)AI-PiM紧密集成最佳大小的PiM加速器为AI功能单元(AFU)处理器内部的管道。

其次是研究集中在将处理功能嵌入到DRAM内存创建Processing-in-Memory (PiM)架构瑟哈德里et al。(2017),罗伊et al。(2021)和Hajinazar et al。(2021)。但在过去的几年中,PiM体系结构也被提议使用除了DRAM内存技术。基于SRAM的PiM体系结构(埃克特et al。(2018);Zhang et al。(2017);贾庆林et al。(2022);董et al . (2020))提供更容易制造的优势比DRAM SRAM以来建立的解决方案通常是捏造的工艺计算。许多非易失性存储器(NVM)基于RRAM PiM解决方案最近也提出(Shafiee et al。(2016);气et al . (2016);周et al。(2019);李et al。(2020))。NVM基于PiM解决方案提供的优势non-volatility SRAM数据是不可能的或基于DRAM的PiM体系结构。图2 b显示了AI加速器的基本架构基于PiM硬件内存层次结构的一部分组成的SRAM, DRAM或NVM被转换为一个专门的人工智能处理单元。一些商业原型基于PiM体系结构也开始变得可用(Devaux (2019);李et al。(2021))。

模拟-数字和数模转换器(ADC和DAC)占最大的面积开销很多PiM的实现也主导电力消耗。之前有研究纯粹的数字PiM (Imani et al。(2019))解决方案的ADC和DAC为了简化PiM设计和保持较低的面积开销。这样的解决方案允许较小的PiM大小,而不必担心掩盖了ADC使用更大的PiM数组/ DAC面积开销。虽然DRAM基于PiM架构利用大内存大小(Mb),基于SRAM和NVM PiM解决方案利用较小(Kb)内存数组。董et al . (2020)提出了一种基于SRAM的PiM解决方案基于铸造提供8 t(8晶体管)位单元数组大小为64×64位。这种小尺寸的PiM解决方案是一个理想的适合低成本优势的人工智能应用程序由于面积有限,成本需要实现这些解决方案。

AI-PiM关注紧密整合这么小尺寸的PiM加速器RISC-V处理器内的管道功能执行单元。这允许加速等常用人工智能内核CPU管道内的向量矩阵乘法。这种设计理念的运用基于PiM AI功能单元(AFU)内部处理器所示图2 c。这种方法不同于以前的解决方案(图2 a, B)基于相对较大的PiM的人工智能处理单元(APU)与中央处理器系统总线。在AI-PiM方法中所示图2 c,小尺寸的PiM功能单元嵌入处理器允许细粒度卸载AI的内核。这种细粒度的卸载的AI内核是有益的在边缘AI和tinyML应用程序包含一个混合的AI和non-AI任务需要无缝地在相同的处理器上执行硬件。此外,tinyML工作负载(班伯里et al。(2021))所示表1由几公斤的小神经网络模型参数运行1批大小,排除了农业大量人工智能工作负载的卸载到更大的apu所示图2 a, B。AI-PiM利用PiM功能单元存储权重和计算向量矩阵乘法操作weight-stationary的方式(陈et al。(2016))。这种方法利用小尺寸的PiM AFUs提出了平衡PiM AFU提供的计算并行性和巨大的区域所需的成本更大的PiM加速器。较小尺寸的AFUs也允许平衡计算操作的内存加载/存储操作从一个更大的AFU授权大量存储操作会改变神经网络的权重从一层到另一个高度并行计算操作。

表1

表1。定量描述MLPerf微型基准(班伯里et al .(2021))模型描述神经网络的规模模型用于tinyML应用程序。

3.2节详细说明这种紧密集成的PiM AFU RISC-V处理器中完成的管道。3.1节讨论了支持PiM AFUs在ISA级别使用自定义指令扩展RISC-V ISA。

3材料和方法

3.1为PiM ISA扩展

AI-PiM RISC-V ISA扩展到支持PiM RISC-V处理器管道内的功能单元和公开PiM的功能硬件软件堆栈的更高层次的抽象。定制的ISA指令允许有效利用PiM功能单元和便于计算映射到PiM硬件通过传达信息PiM编译器的功能。编译器利用这些知识对具体硬件的行为PiM计算内核分解成合适的大小和这些内核映射到硬件保护PiM操作数的形状和大小。

三个新指令的集合,包括PiM RISC-V ISA扩展的二进制编码中所示的细节图3。图3一显示了向量矩阵相乘(vmm)指导了PiM硬件的基本的计算功能。这个指令编码输入激活的卢比源操作数。两个输出寄存器rdl和rdh低和高寄存器用于积累的输出。的vmm指令支持多个向量矩阵相乘PiM硬件单元的大小以及多个输入和积累一些宽度。测试指令支持4位和8位输入操作数和重量(存储在内存中)8、16和32位积累为输出基于不同口味的PiM硬件。如果需要返回或多或输出激活比能适应更长rdl和rdh专用寄存器,返回注册也可以编码指令。但是专用返回注册编码只是一个暂时的解决方法,直到支持暂时存储器或输出缓冲区vmm指令为特定情况下启用。这种支持仍在实验阶段,并详细描述了在以后的出版。

图3

图3。(一)二进制编码的PiM向量矩阵相乘(vmm)自定义指令。(B)自定义加载指令的二进制编码PiM加速器的记忆。(C)二进制编码的自定义为PiM加速器内存存储指令。(D)所有的新指令编码RISC-V custom-2操作码空间的ISA保持兼容基础RISC-V ISA。

图3 b显示自定义加载指令的二进制编码(vmm.ld)。这个指令用于加载输出操作数从PiM AFU内存处理器寄存器。双循环(执行)和记忆阶段PiM AFU,融合在负载指令vmm返回输出的操作数的指令内存阶段写回写阶段rdl和rdh基于寄存器的大小输出操作数。对于多周期的PiM AFU,vmm.ld指令用于负载输出PiM AFU内存处理器寄存器。图3 c描述了自定义存储的二进制编码指令(vmm.sd)用于存储固定重量的重量到PiM AFU内存执行。卢比源寄存器和imm直接抵消是用来计算的地址位置PiM AFU内存中的值平日源寄存器存储。

所有扩展指令的约定RISC-V指令编码哲学三个寄存器和直接编码的计算操作,源和目的寄存器加载和存储内存操作编码的限制。funct3和funct7指令是用来传递信息的不同的PiM大小等特点,同时保持其他指令编码常数减少指令解码复杂度。所示图3 d,所有新PiM指令扩展编码RISC-V custom-2操作码空间的ISA AI-PiM可以完全兼容基础RISC-V ISA。

图4显示了伪C代码和伪汇编代码为1×8向量乘法与8位8×8矩阵元素每个生成1×8输出向量与16位值累积跨越两个64位的寄存器(rdl和rdh)。这段代码显示,8×8矩阵是书面逐行包装1×8 8位行成一个64位的输入操作数vmm.sd指令。一旦所有的8×8矩阵的行存储在内存中,计算vmm可以发出指令执行双重循环向量矩阵乘法操作。PiM接收到1×8输入向量与8位元素作为包装64位操作数(视为一个列向量)和繁殖它与矩阵的列值存储在每个bitline生成积累1×8 16位输出向量。收到的输出向量在记忆阶段和写入rdl和rdh目的地寄存器的低和高输出回写阶段的一部分。这个基于PiM的向量矩阵乘法指令用于加速各种人工智能内核像Conv2D,切除可分Conv2D,完全连接致密层和其他内核自然地映射到vmm原始。

图4

图4。伪代码为1×8向量(8 b元素)和一个8×8矩阵乘法(8 b元素)与16 b产生1×8向量输出积累和相应的伪汇编代码指令扩展。

AI-PiM开发方法值,当我们适应RISC-V ISA使用自定义指令和增强与PiM AFU RISC-V硬件,它是高度重视也开发软件基础设施的有效目标AI应用这个新的AI-PiM处理器体系结构。这些软件开发工作AI-PiM在3.3节详细。

一直特别注意保持定制PiM指令扩展不可知论者潜在的PiM硬件技术的类型(RRAM / STT-MRAM / SRAM等)来创建一个清晰的分离ISA和硬件实现。PiM的类型及其性能特征编码分别在处理器模型周期精确的方式如3.2节所述。这个清晰的分离允许AI-PiM交换PiM加速器的灵活性,同时保持相同的ISA和软件堆栈时更好的PiM加速器是可用的。第四部分详细说明了性能改进和支持这些定制的面积开销PiM指令扩展RISC-V ISA。

3.2紧密集成PiM功能单位

本节提供的细节如何PiM功能单位紧密集成在RISC-V处理器微体系结构级别的管道。如前面所讨论的在第二节,更细粒度的卸载PiM AI内核的功能单元在执行工作负载组成的混合物联网优势AI和non-AI任务是这个紧密集成的主要动机。这样的紧密集成的PiM功能单元在一个边缘处理器允许保存区和硬件成本的解耦AI加速器利用相同的处理器运行AI和non-AI任务。这种方法还有助于节约能源要求之间的数据通信处理器和一个独立的AI加速器作为协处理器。紧密集成的方法是非常有益的,当PiM功能单元只能加速人工智能工作负载的一部分如向量矩阵乘法和主机处理器需要执行数据的预处理和后处理的PiM和执行其他层神经网络池和活化层。也有助于重用资源从处理器的紧密集成管道,减少所需的复杂性设计总线接口和单独的ISA解耦PiM加速器。AI-PiM支持PiM功能单元接受输入和写作的输出回RISC-V处理器管道阶段和寄存器简化界面设计。此外,更容易打破卷积内核并将它们映射到小PiM VMM功能单元相比,更大的VMM单位,需要有效的映射工作负载保持更大的PiM加速器充分的利用。较小的PiM功能单元也有助于平衡PiM计算单元的延迟与处理器流水线延迟保持处理器的关键执行路径短。这有助于加快AI指令3.1节中描述的无缝地在相同的处理器上运行non-AI应用程序的一部分。 This helps us to reduce the cost and complexity of AI hardware at the edge of IoT since AI-PiM is a complete system-level solution rather than an accelerator for AI tasks which depends on a control processor. This tight integration of AFUs enables AI-PiM to execute complete applications and not just the AI/ML kernels like prior PiM solutions.

图5显示了microarchitectural视图的修改RISC-V处理器管道延伸与PiM AI功能单元(AFU)。AI-PiM实现一个基本的五阶段管道RISC-V处理器所示图5。自定义PiM扩展指令获取并解码以同样的方式与其他标准RISC-V指令。但是而不是使用标准的算术逻辑单元(ALU)在执行阶段,自定义指令PiM AFU把操作数。vmm指令是一个计算指令和从通用寄存器中读取输入操作数(GPR)和分派的PiM AFU的输入。PiM AFU计算向量矩阵乘法的输入向量权重矩阵存储在PiM AFU内存并返回输出向量在记忆的最后阶段然后写回探地雷达在回写阶段。自定义内存指令(vmm.ld和vmm.sd)获取和解码标准RISC-V内存指令而不是执行加载或存储操作RISC-V数据内存,这些指令执行自定义加载和存储操作的PiM AFU内存记忆阶段。这样一个紧密集成允许AI-PiM重用大部分RISC-V管道硬件费用仅为PiM功能单元。

图5

图5。RISC-V处理器定制PiM的管道数据流指令目标紧密集成PiM功能单元。

许多设计决策很重要当PiM功能单元集成在开发RISC-V处理器管道。第一个问题是关于PiM功能单元的大小。应平衡PiM的延迟和频率计算操作重量的延迟更新自重量更大尺寸的AFU需要更少的频繁更新,但花费的时间为每个更新周期。此外,底层内存技术的成熟度和耐力也强加限制AFU的物理尺寸。一旦定义AFU大小,下一个问题是,有多少这样的AFUs可以符合给定区域的预算和管道资源和复杂性。AI-PiM使研究人员能够找到这些问题的答案的一部分设计空间探索PiM AFUs和终端上的每个硬件设计的影响物联网优势AI应用如4.4节所述。当前版本的PiM AFU被行为建模周期精确的方式为8 t SRAM (董et al . (2020))基于内存中的向量矩阵乘法单元。PiM VMM功能单位已经在系统级测试和验证,同时支持4位和8位整数格式重量和输入与输出激活积累在16和32位整数根据不同的量化精度水平的软件版本支持pretrained神经网络模型。PiM VMM功能单位利用了输入和输出作为兼容64位操作数的64位版本RISC-V处理器。3.3节描述了PiM AFU暴露在编译器和其他层的软件堆栈通过3.1节中描述的定制ISA扩展。

3.3软件框架开发

AI-PiM延伸与PiM RISC-V处理器硬件功能单元如3.2节所述,RISC-V ISA自定义指令扩展支持包含硬件和软件堆栈的PiM功能单元如3.1节所述。但设计定制的处理器并不是很有利,没有相应的软件支持目标实际工作负载所需的处理器。因此,AI-PiM区分从现有的PiM解决方案通过联合开发完整的软件堆栈和ISA和硬件PiM的贡献。AI-PiM解决方案的另一个亮点是,它保留了可编程性在流行的人工智能领域特定语言和框架应用程序像PyTorch (Paszke et al。(2019)),TensorFlow (Abadi et al。(2016))、ONNX MXNet (陈et al。(2015))和Keras通过允许从任何现有的神经网络描述的这些框架使用自定义编译指令和模拟与PiM硬件功能单元。完整的软件,ISA和硬件合作设计方法和开发流程所示图6。

图6

图6。AI-PiM硬件、ISA和深度学习编译器(TVM组成的软件合作设计方法陈et al。(2018))作为前端编译器从流行的机器学习框架模型映射到C和Synopsys对此ASIP设计器(Synopsys对此(2022)),后端处理器设计工具来生成完整的SDK和synthesizable RTL。AI-PiM贡献和修改现有的工具来支持PiM功能单元在硬件和软件堆栈被高亮显示为绿色。

AI-PiM软件开发框架分叉成两个不同的阶段。在前端(TVM的修改版本陈et al。(2018))开源深度学习编译器是利用所示图6。支持TVM输入神经网络描述在不同的领域特定语言(DSL)和框架像TensorFlow PyTorch, MXNet, Keras, CoreML, DarkNet ONNX。神经网络拓扑蒸馏成单个运营商像Conv2D DepthwiseConv2D、池、转置等使用前端TVM每个DSL或框架。AI-PiM扩展当前运营商通过添加操作员计算定义和降低TVM安排它映射到有效的PiM在硬件功能单元大小。这支持添加了所有操作符可以进一步降低到向量矩阵乘法(VMM)内核支持PiM AI-PiM硬件功能单元。优化算子计算定义和附表,然后降低到张量中间表示(行动),这是低级IR在TVM支持。AI-PiM利用“tensorize”内在TVM时间表从个人运营商定制的VMM内核映射到PiM功能单元在TIR水平。最后的行动代码组成的常规红外和自定义张量红外PiM单位然后通过C代码生成(codegen)阶段生成专门的C代码输入神经网络与轻量级TVM C运行时绑定。AI-PiM扩展C codegen TVM堆栈支持C代码生成RISC-V ISA标准,还支持自定义编译器intrinsic的直接映射到添加ISA扩展AI-PiM见汇编指令图7。这个扩展C TVM codegen允许AI-PiM生成C代码输入神经网络从不同的领域特定语言和框架使用自定义编译器intrinsic ISA扩展嵌入到生成的C源代码。这是一个优化的方式生成C代码组成的标准C函数和自定义intrinsic以来ISA扩展这种方法不需要任何专门的脚本运行生成TVM通用的C代码转换为C代码支持PiM指令或手工手代码系统库或汇编指令支持PiM AI-PiM ISA扩展。编译器各级修改使TVM AI-PiM生成定制的C代码支持PiM功能单元从几乎所有标准的人工智能神经网络模型框架。这允许AI-PiM处理器支持基于processing-in-memory硬件功能单元,使该功能软件的最高水平抽象到AI特定领域特定语言和框架。

图7

图7。流程映射等高级操作员Conv2D ISA扩展使用AI-PiM在前端和后端编译器编译器intrinsic。

图7提供进一步的细节在逐步降低的过程,专门安排TVM运营商AI-PiM ISA扩展汇编指令。计算TVM运营商像Conv2D DepthwiseConv2D、密度等与特殊增强降低时间表AI-PiM的主要内核组成多个”“循环分为内外循环。最里面的两个循环的有效映射到PiM硬件功能单元。运营商层面分裂之后,内循环与编译器取代intrinsic在TIR水平。特别注意给出正确定义输入和输出操作数在正确的顺序,大小和位宽,以确保正确的操作数的运算符映射到行动与编译器intrinsic行动。这段代码然后进一步降低常规行动降低到标准C代码和编译器intrinsic中保留了C代码。这个版本的C代码然后产生并传递到后端TVM C编译器。修改后台编译器编译器intrinsic映射到自定义指令,这允许生成汇编代码组成的标准RISC-V指令以及定制的汇编指令。

Synopsys对此ASIP设计器(Synopsys对此(2022))作为后端AI-PiM硬件、ISA和软件合作设计方法所示图6。后端定义从处理器模型所示图6。支持的指令的处理器模型由ISA随着处理器的微体系结构定义描述在每个阶段的处理器注册转移管道为每个ISA指令。这种处理器描述写在特定语言的工具称为核磁测井(Fauth et al。(1995))。AI-PiM扩展当前RISC-V处理器模型AI-PiM功能单元集成在处理器管道(3.2节)和ISA扩展针对这些功能单元(3.1节)。使用这个扩展处理器模型ASIP设计生成的C编译器扩展RISC-V处理器。AI-PiM进一步修改编译器生成编译器定义intrinsic ISA扩展指令,然后暴露于前端TVM。AI-PiM创建增强TVM版本和ASIP设计之间的一座桥梁,从连同TVM自定义编译器生成C代码intrinsic ASIP设计编制的可以直接生成的C编译器,降低了intrinsic适当的汇编指令,直接映射到PiM功能单元。ASIP设计师还利用扩展RISC-V处理器模型来生成完整的软件开发工具包(SDK)包括汇编,链接器,调试器,指令集仿真器和分析器。生成的可执行二进制然后AI-PiM处理器组成的标准RISC-V指令和自定义ISA扩展支持PiM功能单元。这个可执行二进制模拟使用cycle-accurate指令集模拟器生成性能指标和动态电力评估活动的痕迹。

3.4顶级硬件设计

AI-PiM设计方法是基于硬件、ISA和PiM软件合作设计方法,硬件是联合连同相应的ISA扩展和软件框架。的设计方法将PiM硬件功能单元集成到顶级硬件设计中所示图6。处理器模型描述AI-PiM ISA和微体系结构的处理器用于生成synthesizable RTL连同SDK的一代。这确保了软件和硬件总是相互同步,因为他们来自同一个处理器生成描述。PiM功能单元遵循一个定制的硬件开发由于PiM的模拟和混合信号性质块。顶级Verilog包装器生成定制的PiM街区捕获输入和输出信号,这些信号连接到顶级处理器硬件。这Verilog包装器取代了synthesizable RTL处理器设计工具生成的基于PiM功能单元处理器的行为描述模型。这synthesizable RTL与PiM AFU Verilog包装然后合成和放置路由(不)来生成最终的网表和GDSII布局AI-PiM处理器。PiM功能单元模块标记为黑匣子在合成和不具有步骤和定制设计布局的PiM块放置黑盒位置和路由到生成准确度量AI-PiM设计领域。

4的结果

4.1评价方法

详细的实验已经进行评估AI-PiM处理器的性能在AI内核和基准。AI-PiM绩效评估结果和RISC-V基线生成使用cycle-accurate模拟器和区域的结果已经通过合成与Synopsys对此直流编译器14 nm GlobalFoundries FinFET技术。所有的实验都进行量化神经网络和利用8位重量和输入激活和32位积累VMM操作。MLPerf微小的基准(班伯里et al。(2021))以及ResNet-50神经网络模型和通用矩阵向量乘法内核被用来量化的性能在一个小AI内核和完整的神经网络水平。MLPerf微型基准代表实际工作负载的人工智能应用在物联网的极端边缘。一个标准的5级顺序RISC-V处理器实现支持RV64IMC RISC-V ISA是选为基线。AI-PiM性能也比手臂Cortex-A72处理器从树莓π4。RISC-V处理器支持标准的整数(I),乘法(M)和压缩(C)指令扩展(沃特曼et al。(2014))和树莓π4 tinyML是常见的选择(监狱长和Situnayake (2019))系统描述的系统的硬件选择的结果部分MLPerf微小的基准(MLCommons (2021))。手臂Cortex-A72性能指标是通过运行编译生成神经网络树莓π400使用性能性能分析工具。如果尺寸没有明确提及AI-PiM结果对应于64×64位8 t基于SRAM内存中的向量矩阵乘以单位。4.4节讨论了PiM VMM AFU不同大小的影响。

4.2 GEMV内核性能

图8显示使用的性能改进AI-PiM 64×64位in-SRAM功能部件在两个不同的模式相比,RV64IMC RISC-V基线处理器。模式1利用8位输入操作数和积累在16位执行1×8 8×8矩阵向量乘法。模式2 4比特输入操作数和积累工作中的输出8位执行1×16和16×16矩阵向量乘法。图8显示的速度改进AI-PiM小VMM内核。VMM大部分神经网络推理的基础计算和结果显示在加速边AI-PiM人工智能工作负载的有效性。

图8

图8。性能改进的AI-PiM GEMV内核RV64IMC基线相比。结果为64×64位PiM功能部件中使用两个不同的配置显示,8位输入(1 * 8×8×8向量矩阵)和4比特输入(1 * 16×16×16向量矩阵)。

4.3 MLPerf微型基准性能

AI-PiM是一个系统级的解决方案能够加速完成神经网络模型而非accelerator-only解决方案专注于加速选择人工智能内核。此功能可以模拟完整的MLPerf微小推理基准。这个实验的结果所示图9。所需的处理器周期数量来计算每台机器上有一个推理神经网络模型从基准计算和比较反对RISC-V基线处理器也反对手臂Cortex-A72处理器从树莓π4。

图9

图9。AI-PiM性能的比较与RV64IMC RISC-V基线和手臂Cortex-A72处理器MLPerf小小的基准的数量的处理器周期。

图10进一步的细节提供的性能加速AI-PiM翻船当前人工智能处理器。AI-PiM提供和平均2.74倍的加速比RISC-V基线处理器和2.45倍比手臂Cortex-A72处理器MLPerf微小的基准。应该注意的是,所示的10.1倍加速图8用8位输入操作数小GEMV内核不翻译类似的改进完成神经网络层面对不同的神经网络模型如图所示图10。原因是PiM功能单元加速只有卷积和完全连接层的神经网络和其他层不加速了PiM功能单元。此外,引入了大量的内存管理包装器代码在TVM神经网络层不加速了PiM功能单元和定制的ISA扩展。因此,我们看到减少加速时从一只手精心GEMV内核用C编写完成神经网络模型用TensorFlow Lite的微控制器(TFLM)和转换为C代码通过编译器前端毫升像TVM。这说明完整的负载水平性能分析的重要性通过AI-PiM比起其他PiM解决方案,只关注内核级别的性能分析。

图10

图10。加速性能相比,由于AI-PiM RV64IMC RISC-V基线和手臂Cortex-A72处理器MLPerf小基准。

MLPerf微小的神经网络模型基准标准涵盖各式各样的模型包括卷积神经网络(CNN)像ResNet模型与切除可分离旋转和深autoencoder模型。基准也跨越不同应用程序用于边缘AI和tinyML应用领域如音频和视频关键字定位,图像分类和异常检测。AI-PiM达到一致的加速当前边缘AI处理器的所有模型基准显示设计的有效性AI-PiM一般人工智能加速解决方案而不是专业AI-PiM对于任何特定类型的神经网络模型或应用程序。

4.4设计空间探索

结果显示到目前为止已经使用64×64位in-SRAM VMM功能单位。但AI-PiM硬件、ISA和软件合作设计允许广泛的设计空间探索PiM功能单元。的一个旋钮在这个设计空间探索是PiM功能单元的大小。AI-PiM允许扫描可能大小的PiM AFUs并生成性能和面积指标基于周期精确的性能度量基于实际工作负载和合成或地点和路线区域估计为每个大小的PiM AFU设计空间。而不是依靠经验决定应该PiM AFU的大小,AI-PiM允许全面的数据为基础分析每个可能的影响AFU大小最终人工智能应用程序的性能和最终硬件实现的领域。在本节中,我们将展示一个例子的设计空间探索通过考虑的性能和面积影响PiM VMM大小不等小16×16位功能单元64×64位功能单元。图11显示AI-PiM提供的性能改进设计与不同大小的PiM AFU ResNet-8网络从MLPerf微型基准套件。结果所示图11匹配的直观理解加速器规模越大,高是VMM单位提供的并行性,因此,高的实际加速设计。

图11

图11。基准性能加速ResNet-8模型从MLPerf微小的数量的处理器周期相比RV64IMC 5级RISC-V处理器基线。

但快速浏览图12清楚地表明,更高的加速器的性能是有更高的面积开销。测量的面积开销AI-PiM所需的额外面积的比率不同PiM功能单位大小的面积基线RV64IMC处理器。在这种情况下,AI-PiM提供了一个有效的设计空间探索方法,用户可以在设计时做一个全面的权衡分析的性能和面积开销之间的每个大小PiM功能单元通过对比性能不是只是小内核完成神经网络模型将作为最终的应用程序工作负载。

图12

图12。不同PiM AFU大小的面积开销相比RV64IMC 5级RISC-V处理器基线。

边缘AI设备往往是成本、规模与权力有限,这就需要提取最大性能至少面积成本。这种哲学是用来设计一个简单的品质因数(FoM)百分比除以个人PiM提供的性能改进VMM AFU大小通过为每个设计面积开销百分比。这使得单位面积最大化性能成本。图13清楚地表明,设计使用最小的PiM AFU方面节省面积或设计最大的PiM AFU性能最大化不提供最高的优势。而AFU大小的范围如32×32、64×16和64×32提供最高的性能改进每比例面积开销。这些数字的优点是必要的硬件设备在设计tinyML和边缘在一个非常高的重要性对设计成本最低。

图13

图13。AI-PiM提高品质因数(百分比性能/百分比面积开销)相比RV64IMC 5级RISC-V处理器基线。

4.5比较独立的AI加速器

AI-PiM还使电力和能源使用模拟活动文件估计back-annotated合成或post-place-and-route网表。这样就可以准确、快速和广泛的权力,性能、面积和能源为每个硬件(PPAE)分析,ISA和软件框架设计点。权力的结果在这一节中使用活动文件已经生成的模拟音频关键字定位基准以DS-CNN神经网络模型从MLPerf微小的基准。这些活动文件然后back-annotated的RTL AI-PiM RISC-V处理器和合成14 nm FinFET技术。功率估计PiM AFU被添加到处理器平均功率指标。所有的权力指标显示的平均功耗DS-CNN基准。精力花在整个基准模型推理计算使用平均功率,性能方面所需要的周期数为每个设计和运行基准测试的频率设计。

图14显示PPAE比较AI-PiM等效Gemmini加速器(Genc et al。(2021);冈萨雷斯和香港(2020))和8×8收缩期数组。图14表明,松散耦合Gemmini收缩期数组加速器需要功率的9.62倍,18.34倍的面积和9.36能源仅提供3%的性能提升AI-PiM ResNet-50神经网络模型。应该注意的是,Gemmini使用的手工制作的C内核报告ResNet-50性能而AI-PiM使用使用TVM TensorFlow Lite编译版本的基准。手制作的C内核提供性能效率高但AI-PiM能够实现等效的性能与高水平的模式编译领域特定语言。这进一步证明了利用硬件、ISA和AI-PiM软件合作设计方法,给出了利用紧密集成的AFU相比的松散集成人工智能中执行的加速器Gemmini加速器。

图14

图14。完整的功率、性能、面积和能源(PPAE) AI-PiM的比较先进的Gemmini独立的AI加速器。

5讨论

人工智能算法是进化比人工智能硬件开发速度快得多。这需要构建可扩展和灵活的硬件解决方案处理人工智能应用程序从云计算物联网的极端边缘。AI-PiM提供这种灵活性通过扩展RISC-V处理器使用自定义指令和硬件集成PiM加速器内的处理器。虽然本文的重点是基于SRAM的PiM功能单位,AI-PiM提供灵活地集成其他CMOS兼容的PiM技术基于RRAM PiM单位也在处理器管道。最重要的是,AI-PiM发展标准化设计方法整合PiM加速器的微体系结构标准计算堆栈,ISA和软件水平。这允许建立一个基于扩展RISC-V边缘处理器能够利用并行性优势的PiM加速器和搭配的可编程特性标准处理器构建硬件解决方案可以处理人工智能和non-AI边缘应用程序。准确的功率估计是边缘处理器设计的一个重要方面性能和面积估算。AI-PiM敏捷方法论提供了一个路径来执行这样的力量,性能和面积(PPA)估计。功率指标AI-PiM在本文中没有报道,但将是未来工作的主题。作者也扩展当前AI-PiM设计来支持多个异构PiM功能单元提供一个简单的路径整合这些非冯·诺依曼加速器标准计算模型。

6结论

在本文中,我们提出了AI-PiM架构紧密整合PiM加速器功能执行单元内RISC-V处理器使用硬件,ISA和软件合作设计方法。AI-PiM延伸与PiM RISC-V处理器硬件功能单元,RISC-V ISA对定制指令扩展和开发软件框架来透明地公开PiM加速器软件栈。敏捷设计方法AI-PiM允许用户探索综合设计空间在硬件和ISA的水平。AI-PiM使处理人工智能和non-AI单处理器和边缘上的应用程序提供了一个平均2.74倍的加速RV64IMC RISC-V处理器基线和2.45 x加速/手臂Cortex-A72处理器MLPerf微小的基准。

数据可用性声明

原始数据支持了本文的结论将由作者提供,没有过度的预订。

作者的贡献

VV是参与的概念化的想法,进行实验和写作手稿。女士是参与的概念化的想法和写作和审查手稿。这手稿已通过所有的作者。

资金

这项工作已经由半导体研究公司(SRC)在GRC AIHW计划任务数2945.001。这项工作的部分支持由脆,跳六个中心之一,半导体研究公司(SRC)计划,由马可和美国国防部高级研究计划局。

确认

作者想感谢SRC资助这项研究和神父从弗吉尼亚大学任提供覆盆子π在大流行期间。作者也承认活泼的讨论,形成了处理:凯文Skadron (UVa),阿施施Venkat (UVa),迈克Caraman (NXP),马赫什•钱德拉(NXP)拉梅什Chauhan(高通),Vivek De(英特尔),保罗Somnath(英特尔),迪帕克Desalukunte(英特尔),穆罕默德Khelah(英特尔),克里希南卡纳斯(IBM)、菲利普•雅各布(IBM) Karthik Swaminathan (IBM),鑫张(IBM),马特•齐格勒(IBM) Mihir Mody (TI)。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。资助者没有参与研究设计、收集、分析、解释数据,本文的写作或决定提交出版。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

引用

Abadi, M。,Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., et al. (2016). “TensorFlow: A system for large-scale machine learning,” in12日USENIX研讨会上操作系统的设计和实现,265 - 283。

谷歌学术搜索

安德森,M。陈,B。陈,S。邓,S。修复,J。,Gschwind, M., et al. (2021).第一代推理加速器部署在facebook。

谷歌学术搜索

班伯里,c R。、Reddi诉J。林,M。傅,W。,Fazel, A., Holleman, J., et al. (2021).基准测试TinyML系统:挑战和方向。

谷歌学术搜索

陈,T。李,M。李,Y。,Lin, M., Wang, N., Wang, M., et al. (2015). Mxnet: A flexible and efficient machine learning library for heterogeneous distributed systems.arXiv预印本arXiv: 1512.01274

谷歌学术搜索

陈,T。,Moreau, T., Jiang, Z., Zheng, L., Yan, E., Shen, H., et al. (2018). “Tvm: An automated end-to-end optimizing compiler for deep learning,” in13日USENIX研讨会上操作系统设计与实现(OSDI 18)。(卡尔斯巴德,CA:USENIX协会),578 - 594。

谷歌学术搜索

陈,中州。,Krishna, T., Emer, J., and Sze, V. (2016). “Eyeriss: An energy-efficient reconfigurable accelerator for deep convolutional neural networks,” inIEEE国际固态电路会议,globalfoundries 2016,262 - 263。消化技术论文。

谷歌学术搜索

气,P。,Li, S., Xu, C., Zhang, T., Zhao, J., Liu, Y., et al. (2016). “Prime: A novel processing-in-memory architecture for neural network computation in ReRAM-based main memory,” inACM和IEEE 2016年第43届国际研讨会上计算机体系结构(ISCA),27-39。doi: 10.1109 / ISCA.2016.13

原始研究的文章

AI-PiM-Extending RISC-V处理器与Processing-in-Memory AI推理功能单元的物联网的边缘

1介绍

2背景

3材料和方法

3.1为PiM ISA扩展

3.2紧密集成PiM功能单位

3.3软件框架开发

3.4顶级硬件设计

4的结果

4.1评价方法

4.2 GEMV内核性能

4.3 MLPerf微型基准性能

4.4设计空间探索

4.5比较独立的AI加速器

5讨论

6结论

数据可用性声明

作者的贡献

资金

确认

的利益冲突

出版商的注意

引用

本文是研究课题的一部分

人也看了