原始研究的文章gydF4y2Ba

Front.Electron。,20Dece米ber2022gydF4y2Ba
秒。集成电路和超大规模集成gydF4y2Ba
卷3 - 2022 |gydF4y2Ba https://doi.org/10.3389/felec.2022.1032485gydF4y2Ba

XMAgydF4y2Ba^2gydF4y2Ba:crossbar-aware多任务适应框架gydF4y2Ba通过gydF4y2Ba两层的面具gydF4y2Ba

张的粉丝gydF4y2Ba,gydF4y2Ba

李阳gydF4y2Ba,gydF4y2Ba

剑孟gydF4y2Ba,gydF4y2Ba

Jae-sun SeogydF4y2Ba,gydF4y2Ba

于曹gydF4y2Ba和gydF4y2Ba

刘德亮风扇gydF4y2Ba*gydF4y2Ba

电气学院的计算机和能源工程,亚利桑那州立大学,坦佩阿兹,美国gydF4y2Ba

最近,ReRAM crossbar-based深层神经网络(款)加速器已被广泛研究。然而,大多数之前的工作集中于单一任务推理由于高能源消耗的体重重编程和ReRAM细胞的低疲劳问题。调整ReRAM crossbar-based款加速器为多个任务还没有被充分研究。在这项研究中,我们建议gydF4y2BaXMAgydF4y2Ba^2gydF4y2Ba小说crossbar-aware学习法,两层的屏蔽技术有效地适应骨干款模型部署在ReRAM横梁为新任务的学习。在XMAgydF4y2Ba^2gydF4y2Ba基于多任务适应(MTA)、一级ReRAM crossbar-based处理部件——(PE)明智的面具是第一个学会识别最关键的PEs重组为新任务的重要新功能。随后,应用二级横梁列面具内其余的weight-frozen PEs学习hardware-friendly和列比例因子对新任务学习,无需修改重量值。这样crossbar-aware设计创新,我们可以实现所需的屏蔽操作在现有crossbar-based卷积引擎以最小的硬件/内存开销来适应一个新的任务。大量的实验结果表明,与其他先进的多个任务适应方法相比,XMAgydF4y2Ba^2gydF4y2Ba达到最高的精度在所有流行的多任务学习的数据集。gydF4y2Ba

1介绍gydF4y2Ba

深层神经网络(款)最近发现卓越的性能在许多应用程序中。然而,单个任务的高度专业化的抑制其发展潜力。出于这一点,研究人员开始设计算法,可以按顺序款模型适应多个任务同时仍然表现良好在过去的任务。这个过程逐渐适应款模型的学习各种任务被称为多任务适应(MTA) (gydF4y2BaMallya et al ., 2018gydF4y2Ba;gydF4y2Ba杨et al ., 2021)gydF4y2Ba。微调(gydF4y2Ba·科恩布利思et al ., 2019)gydF4y2Ba是一种直观的方式采取的知识(即从当前模型。骨架模型),新任务。虽然它提供了良好的精度在新任务,更新骨架模型的权重意味着忘记旧知识在早些时候任务,从而导致显著的性能退化之前的任务。这种现象被称为灾难性忘记(gydF4y2BaParisi et al ., 2019gydF4y2Ba;gydF4y2Ba杨et al ., 2021gydF4y2Ba;gydF4y2Ba柯克帕特里克et al ., 2017gydF4y2Ba;gydF4y2BaMallya et al ., 2018)gydF4y2Ba,它广泛存在于MTA。gydF4y2Ba

从硬件方面,款需要大量繁殖并积累(MAC)操作和数据移动。在传统硬件(例如,CPU和GPU),大规模的数据通信能量可以近两个订单大于数据处理,称为“内存墙”(gydF4y2Ba米塔尔,2019)gydF4y2Ba。内存计算(IMC)引起了巨大的关注作为一个替代方法由于其能力来计算MAC直接在内存数组中。这样才能明显减轻了“内存墙”问题(gydF4y2Ba埃克特et al ., 2018gydF4y2Ba;gydF4y2Ba风扇和Angizi, 2017年gydF4y2Ba;gydF4y2Ba气et al ., 2016gydF4y2Ba;gydF4y2Ba歌et al ., 2017gydF4y2Ba;gydF4y2Ba程et al ., 2019gydF4y2Ba;gydF4y2Ba雪et al ., 2019gydF4y2Ba;gydF4y2Ba陈W.-H。et al ., 2018)gydF4y2Ba;gydF4y2Ba李et al ., 2016gydF4y2Ba;gydF4y2BaShafiee et al ., 2016gydF4y2Ba;gydF4y2BaCai et al ., 2019gydF4y2Ba;gydF4y2BaAnkit et al ., 2019gydF4y2Ba;gydF4y2Ba陈和李,2018)gydF4y2Ba。其他挥发性或非易失性IMC设计相比,ReRAM crossbar-based设计是一种很有前途的候选人进行高效款加速器推断由于其结构简单,开/关率高,密度高,multi-bit每个细胞存储,和制造兼容互补金属氧化物半导体(gydF4y2Ba米塔尔,2019gydF4y2Ba;gydF4y2Ba胡锦涛等人。,2016年gydF4y2Ba;gydF4y2Ba徐et al ., 2015gydF4y2Ba;gydF4y2Ba陈,2020gydF4y2Ba;gydF4y2BaAkinaga和日本岛,2010年gydF4y2Ba;gydF4y2BaCai et al ., 2019)gydF4y2Ba。基于这样的好处,许多ReRAM crossbar-based设计提出了支持推理一款专门的任务(gydF4y2Ba米塔尔,2019gydF4y2Ba;gydF4y2Ba歌et al ., 2017gydF4y2Ba;gydF4y2Ba阴et al ., 2020gydF4y2Ba;gydF4y2Ba埃克特et al ., 2018gydF4y2Ba;gydF4y2BaShafiee et al ., 2016gydF4y2Ba;gydF4y2BaAnkit et al ., 2019gydF4y2Ba;gydF4y2Ba气et al ., 2016gydF4y2Ba;gydF4y2Ba歌et al ., 2017)gydF4y2Ba。gydF4y2Ba

一般实践适应专业款模型部署在ReRAM横梁的新任务是调整(即重量参数。,电池电导)骨架模型的使用新任务的数据(gydF4y2Ba·科恩布利思et al ., 2019)gydF4y2Ba。然而,这个过程必须更新电导(即。,reprogr一个米最小值g)of nearly all ReRAM cells to represent the new fine-tuned weight parameters. Due to the well-known non-volatile ReRAM device limitations, such as high reprogramming energy and limited endurance, and catastrophic forgetting for large-scale multi-task learning, the fine-tuning (·科恩布利思et al ., 2019)gydF4y2Ba方法是低效的,多任务学习在实践中行不通。gydF4y2Ba

最近,mask-based学习算法(gydF4y2BaMallya et al ., 2018gydF4y2Ba;gydF4y2Ba杨et al ., 2021gydF4y2Ba;gydF4y2BaZhang et al ., 2022 agydF4y2Ba,gydF4y2BacgydF4y2Ba,gydF4y2Bab)gydF4y2Ba提出了执行MTA以更有效的方式。例如,捎带(gydF4y2BaMallya et al ., 2018)gydF4y2Ba作为代表作,学会了一个特定于任务的二元掩模∈{0,1}以聪明元素的方式对所有重量为每个新任务而冻结骨架模型。Kernel-wise软面具(gydF4y2Ba杨et al ., 2021)gydF4y2Ba扩展了特定于任务的面具从二进制混合二进制和实际价值,提高适应能力。此外,我们之前works-XBM (gydF4y2BaZhang et al ., 2022)gydF4y2Ba和XMA (gydF4y2BaZhang et al ., 2022 b)gydF4y2Ba提出mask-based学习法在横梁列模式与ReRAM横梁上的考虑部署硬件。具体来说,每个学习面具值(即控制操作。,on/off and shift) of the entire crossbar column for the new task inference without reprogramming ReRAM cells. Thus, these methods lead to memory and energy reduction compared to the element-wise piggyback. However, the adaption capability of these works is limited, which has a clear accuracy gap compared to fine-tuning-based methods. The main reason is that these methods completely freeze the weights of the backbone model and only apply the binary (Mallya et al ., 2018gydF4y2Ba;gydF4y2BaZhang et al ., 2022)gydF4y2Ba或位移值(gydF4y2BaZhang et al ., 2022 b)gydF4y2Ba学习新任务的面具,导致有限的优化空间。此外,适应性能的任务是高度依赖于源任务和新任务之间的相关性。例如,如果数据分布的新任务(gydF4y2Ba萨利赫和Elgammal, 2015)gydF4y2Ba是非常不同的从源任务(如。、图像网(gydF4y2BaRussakovsky et al ., 2015)gydF4y2Ba),这些方法的准确性比这更糟的fine-tuning-based方法。gydF4y2Ba

相反,正如我们前面所讨论的,微调方法是不切实际的和低效的横梁硬件上部署MTA由于高能源ReRAM细胞重新编程。因此,一种新的方法,可以平衡这两个好处是急需的。gydF4y2Ba

为了解决这些问题,在这项工作中,我们提出XMAgydF4y2Ba^2gydF4y2Ba,一本小说ReRAM crossbar-aware学习框架gydF4y2Ba通过gydF4y2BaMTA的两层口罩,利用硬件层次ReRAM crossbar-based款加速器架构。在XMAgydF4y2Ba^2gydF4y2Ba,每个ReRAM crossbar-based加速器与一级PE-wise面具和二级列相关联的面具。gydF4y2Ba

•为了学习新的任务,一级PE-wise面具用于识别最关键的PEs的一小部分,这是重新编程学习至关重要的新特性。为了达到这个目标,我们的梯度计算每个PE-wise面具对新任务数据,在较大的梯度大小指示有关体育的重要性级别更高的新任务。然后,这些顶级PEs(例如,10%)为当前的新任务将被禁用保存旧知识而将替换为新学会了PEs与特定于任务的权重。通过这样做,每个特定于任务的模型执行推理没有忘记先验知识通过结合特定于任务的口罩过滤之前的重量和一小部分新的特定于任务的权重。gydF4y2Ba

•为了进一步提高学习能力,我们不能计划的约束大多数weight-frozen PEs(又名PEs排名较低的梯度),我们采用二级横梁列面具从我们以前的工作(gydF4y2BaZhang et al ., 2022 bgydF4y2Ba,gydF4y2Ba一)gydF4y2Ba,可学的,三班比例因子应用于每个横梁的输出列。它还可以提供额外的学习能力weight-frozen PEs。gydF4y2Ba

本研究的其余部分组织如下:第二节介绍背景和相关工作。第三节详细的方法学习方法提出了两层的面具。第四部分展示了硬件实现。第五部分给出了算法性能不同的任务和硬件评估。最后,第6节给出了一个结论。gydF4y2Ba

2背景gydF4y2Ba

2.1多任务适应gydF4y2Ba

MTA (gydF4y2BaRebuffi et al ., 2017gydF4y2Ba;gydF4y2Ba罗森菲尔德和Tsotsos, 2018)gydF4y2Ba旨在培养一个通用模型适应多个视觉任务,并使用尽可能少的增量参数域。gydF4y2Ba罗森菲尔德和Tsotsos (2018)gydF4y2Ba重组骨干的过滤通道模型gydF4y2Ba通过gydF4y2Ba控制器模块。gydF4y2Ba刘et al。(2019)gydF4y2Ba提出了骨干模型模块特定领域的关注。捎带(gydF4y2BaMallya et al ., 2018)gydF4y2BaMTA解决问题通过学习特定于任务的可学的二进制面具而冻结支柱模型除了标识符(称为多头)。真正的价值可学的重量面具gydF4y2Ba米gydF4y2Ba^rgydF4y2Ba是第一个关键阈值函数Φ吗gydF4y2BaτgydF4y2Ba:gydF4y2Ba

向前gydF4y2Ba :gydF4y2Ba {米gydF4y2Ba}^{bgydF4y2Ba} =gydF4y2Ba ΦgydF4y2Ba ({米gydF4y2Ba}^{rgydF4y2Ba}) =gydF4y2Ba \{\begin{cases} 1gydF4y2Ba & 我gydF4y2Ba fgydF4y2Ba {米gydF4y2Ba}^{rgydF4y2Ba} \geqgydF4y2Ba τgydF4y2Ba \\ 0gydF4y2Ba & ogydF4y2Ba tgydF4y2Ba hgydF4y2Ba egydF4y2Ba rgydF4y2Ba wgydF4y2Ba 我gydF4y2Ba 年代gydF4y2Ba egydF4y2Ba \end{cases} (gydF4y2Ba 1gydF4y2Ba)gydF4y2Ba

落后的gydF4y2Ba :gydF4y2Ba ∇gydF4y2Ba {米gydF4y2Ba}^{bgydF4y2Ba} =gydF4y2Ba ∇gydF4y2Ba {米gydF4y2Ba}^{rgydF4y2Ba} (gydF4y2Ba 2gydF4y2Ba)gydF4y2Ba

二值化函数的微分在反向传播,直通估计量(STE) (gydF4y2BaHubara et al ., 2016)gydF4y2Ba被用来估计面具梯度∇吗gydF4y2Ba米gydF4y2Ba^bgydF4y2Ba。二元掩模方法后,gydF4y2BaMallya et al。(2018)gydF4y2Ba,gydF4y2Ba曼奇尼et al。(2018)gydF4y2Ba,gydF4y2Ba杨et al。(2021)gydF4y2Ba引入一个额外的浮点比例因子提高适应能力。然而,它遭受了培训期间的计算和内存费用增加。在这项工作中,我们也利用流行的特定于任务的mask-based学习方法克服了先验知识的遗忘。gydF4y2Ba

2.2 ReRAM-based神经网络加速器gydF4y2Ba

高并行性和高密度的存储,ReRAM-based IMC推理(款已成为一个有吸引力的解决方案gydF4y2Ba米塔尔,2019gydF4y2Ba;gydF4y2Ba歌et al ., 2017gydF4y2Ba;gydF4y2Ba阴et al ., 2020gydF4y2Ba;gydF4y2Ba埃克特et al ., 2018gydF4y2Ba;gydF4y2BaZhang et al ., 2022 agydF4y2Ba,gydF4y2BabgydF4y2Ba;gydF4y2BaShafiee et al ., 2016gydF4y2Ba;gydF4y2BaAnkit et al ., 2019gydF4y2Ba;gydF4y2Ba气et al ., 2016gydF4y2Ba;gydF4y2Ba歌et al ., 2017)gydF4y2Ba。gydF4y2Ba图1gydF4y2Ba描述的基本架构1 t1r横梁数组。沿着列平行执行模拟计算提供了高效的矢量矩阵乘法(VMM)。鉴于pre-trained款模型、权重设定的电导gydF4y2BaGgydF4y2BaReRAM细胞内。输入向量表示为模拟电压脉冲gydF4y2BaVgydF4y2Ba_在gydF4y2Ba(gydF4y2Ba胡锦涛等人。,2016年gydF4y2Ba;gydF4y2Ba张和胡,2020年gydF4y2Ba;gydF4y2Ba陈,2020)gydF4y2Ba,美联储通过水平源代码行。VMM产品输出电流之间的电压gydF4y2BaVgydF4y2Ba_在gydF4y2Ba和编程的电导gydF4y2BaGgydF4y2Ba沿着位线(提单)。gydF4y2Ba

图1gydF4y2Ba

图1gydF4y2Ba。ReRAM 1 t1r横梁阵列(gydF4y2BaZhang et al ., 2022 bgydF4y2Ba)。gydF4y2Ba

高能源效率所吸引,各种ReRAM-based提出了神经网络加速器(gydF4y2Ba米塔尔,2019gydF4y2Ba;gydF4y2Ba歌et al ., 2017gydF4y2Ba;gydF4y2Ba阴et al ., 2020gydF4y2Ba;gydF4y2Ba埃克特et al ., 2018)gydF4y2Ba。然而,大多数现有的ReRAM-based IMC加速器关注款推理与一次性部署pre-trained模型,缺乏灵活地改变任务。适应新任务通常需要额外的培训和第二次部署。最近,几个ReRAM-crossbar-based加速器设计提出了支持持续的学习。高效的多任务架构转移学习(gydF4y2Ba陈和李,2018;gydF4y2Ba 李et al ., 2022)gydF4y2Ba分析了数据流,使硬件修改支持反向传播。它使设备内置重量更新和不断的学习但要求高耐力ReRAM设备。此外,频繁更新重量消耗了大量的能源,造成能源利益的丧失。为了避免昂贵的重量更新/重组,XBM (gydF4y2BaZhang et al ., 2022)gydF4y2Ba首先进行设备内置mask-based多任务适应列的方式。它学习不可预见的任务对应于列解开面具同时保持固定支柱模型。与之前的作品相比,启用新任务的列消除了编程/调整成本,导致MTA的高能源效率。出于XBM XMA (gydF4y2BaZhang et al ., 2022 b)gydF4y2Ba介绍了面具转向丰富多任务适应性的学习空间,提高精度和硬件开销可以忽略不计。MTA的背景下,天真的微调提供最好的硬件成本最高的精度。拥抱微调hardware-friendly方式还有待开发。不同于之前的作品(gydF4y2BaZhang et al ., 2022 agydF4y2Ba,gydF4y2Bab)gydF4y2Ba,MTA完全依赖于设备上调整同时重量依然完好无损,这项工作平衡ReRAM横梁部署成本和accuracy-driven模型微调。gydF4y2Ba

2.3神经网络量化和修剪gydF4y2Ba

量化被广泛研究压缩模型和款作为一个有效的方法提高计算的能源效率,同时保持精度通过压缩数据精度(如重量和激活)(gydF4y2Ba周et al ., 2016gydF4y2Ba;gydF4y2Ba崔et al ., 2019gydF4y2Ba;gydF4y2Ba公园和柳,2020)gydF4y2Ba。严格的资源约束的硬件加速器需要有效的量化算法。早期研究工作(gydF4y2Ba周et al ., 2016)gydF4y2Ba证明了离散化的可行性之间的完整的精确重量固定边界(−1,1)。然而,确定的量化范围未能符合layer-wise分布自适应。它会导致非最优模型的性能。各种研究引入layer-wise培训期间可学的剪切参数量化误差降到最低。在这种情况下,协议(gydF4y2Ba崔et al ., 2018)gydF4y2Ba动态剪激活可训练的基础上量化边界。然而,协议(gydF4y2Ba崔et al ., 2019)gydF4y2Ba只有利用截断范围内的梯度,导致学习不足。为了避免这个问题,我们采用量化算法从利润(gydF4y2Ba公园和柳,2020)gydF4y2Ba训练模型款。gydF4y2Ba

正交于量子化,模型大小减少从稀疏获得神经网络也会导致实际硬件的好处(例如,能源和减少延迟)。开创性的研究工作(gydF4y2Ba汉et al ., 2015)gydF4y2Ba表明款仍然可以保留性能与高element-wise体重稀疏。然而,高细粒度的稀疏引入了大量的指数计算内存存储和不规则的内存访问硬件。这可以促进结构化修剪方案作为hardware-friendly解决方案(gydF4y2Ba孟et al ., 2021)gydF4y2Ba。结构化和非结构化的修剪,选择一个适当的重要性度量是至关重要的本地化的重要权重。参考修剪重量冗余的正当性,基于级(gydF4y2Ba汉et al ., 2015)gydF4y2Ba或标准化影响评分(gydF4y2Ba李等人。,2020)gydF4y2Ba然后应用二进制掩码传球前进。然而,参考sparsification忽略了模型的脆弱性对修剪。出于这一点,剪断(gydF4y2Ba李等人。,2018)gydF4y2Ba确定连接敏感性基于梯度而不是重量大小。移除连接数超过Top-K最少的敏感性降低修剪的影响,进一步优化整个稀疏模型架构。gydF4y2Ba

3的方法gydF4y2Ba

3.1概述gydF4y2Ba

在本节中,我们介绍我们2 mask-based crossbar-aware MTA的学习方法。处理元素(PE)通常由一个或多个ReRAM横梁数组共享外围电路和缓冲。为简单起见,我们使用一个横梁/ PE作为一个例子,其中每个体育与一个一级PE-wise面具。所示gydF4y2Ba图2gydF4y2Ba离线训练期间,对于一个新任务,这样的一级PE-wise面具将第一次的梯度计算的基础上,新任务数据,这样的大大小PE-wise面具梯度指示有关体育的重要性级别越高对新任务(gydF4y2Ba李等人。,2018)gydF4y2Ba。基于这样的理论,我们选择top-P-ranked (“P”是一个参数与一个较小的值,例如,10%)PEs作为我们的候选人重量重新编程学习新任务,定义为适应性权重。相比之下,我们剩下的PEs的冷冻权重定义为non-adaptable权重。然而,保护先验知识没有忘记,我们选择禁用并留住老top-P-ranked PEs的任务。与此同时,我们替换那些PEs相同数量的新的PEs新学会了适应新任务的权重。因此,每个特定于任务的模型进行推理没有忘记先验知识通过结合特定于任务的口罩过滤之前的重量和新的特定于任务的适应性权重。为了进一步提高学习能力,在这工作,约束,我们不能计划冻结权重(a.k.。non-adaptable体重在PEs梯度较低的排名),我们采用二级横梁列面具继承gydF4y2BaZhang et al . (2022gydF4y2Ba,gydF4y2Bab)gydF4y2Ba。它是可学的面具,可以应用一个可学的,三班比例因子每个相应的横梁的输出列。它还可以提供额外的学习能力non-adaptable重量weight-frozen PEs的内核。下面的部分将详细的两层的面具的多任务学习过程。gydF4y2Ba

图2gydF4y2Ba

图2gydF4y2Ba。crossbar-aware多元化适应框架的概述,包括PE-wise掩蔽再培训和col-wise掩蔽激活调整。gydF4y2Ba

3.2一级PE-wise面具学习gydF4y2Ba

在ReRAM crossbar-based款加速器设计,整个结构由多个PEs、基本计算单位执行VMM支持卷积操作。在此基础上,我们定义PE-wise二进制面具gydF4y2Ba米gydF4y2Ba^{体育gydF4y2Ba}∈{0,1}识别和重新学习适应性的重量在相应的PEs的很小一部分新任务而冻结剩余的PEs的权重。“1”和“0”值的PE-wise面具表明适应性权重和其他非自适应的权重,分别由梯度学习排序方法。gydF4y2Ba

3.2.1梯度排名确定PE-wise适应性的权重gydF4y2Ba

灵感来自于修剪工作(gydF4y2Ba李等人。,2018)gydF4y2Ba单任务操作前,删除不重要的重量训练,我们建议识别task-adaptable权重根据它们的重要性在改变损失的新任务。数学上,给一个新任务gydF4y2Ba $DgydF4y2Ba$ 的优化目标PE-wise面具学习可以制定如下:gydF4y2Ba

\underset{{米gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba}}{最小值gydF4y2Ba} lgydF4y2Ba ({wgydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba} ⊙gydF4y2Ba {米gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba},gydF4y2Ba DgydF4y2Ba) 年代gydF4y2Ba 。gydF4y2Ba tgydF4y2Ba 。gydF4y2Ba \frac{为gydF4y2Ba {米gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba} {为gydF4y2Ba}_{0gydF4y2Ba}}{NgydF4y2Ba} \leqgydF4y2Ba PgydF4y2Ba (gydF4y2Ba 3gydF4y2Ba)gydF4y2Ba

在哪里gydF4y2Ba $lgydF4y2Ba (gydF4y2Ba \cdotgydF4y2Ba)gydF4y2Ba$ 损失函数,gydF4y2BawgydF4y2Ba^{体育gydF4y2Ba}重量分布在PEs,gydF4y2BaNgydF4y2Ba栓塞形成后症状(PEs)的总数,gydF4y2BaPgydF4y2Ba的预定义的比率是适应能力的权重。从变化的角度,消除部分重量的影响gydF4y2Ba ${wgydF4y2Ba}_{我gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba}$ 可以制定如下:gydF4y2Ba

ΔgydF4y2Ba lgydF4y2Ba ({wgydF4y2Ba}_{我gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba},gydF4y2Ba DgydF4y2Ba) =gydF4y2Ba lgydF4y2Ba ({米gydF4y2Ba}_{我gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba} =gydF4y2Ba 1gydF4y2Ba,gydF4y2Ba DgydF4y2Ba) -gydF4y2Ba lgydF4y2Ba ({米gydF4y2Ba}_{我gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba} =gydF4y2Ba 0gydF4y2Ba,gydF4y2Ba DgydF4y2Ba) (gydF4y2Ba 4gydF4y2Ba)gydF4y2Ba

根据gydF4y2Ba李et al。(2018)gydF4y2Ba,可以近似改变损失如下:gydF4y2Ba

ΔgydF4y2Ba lgydF4y2Ba ({wgydF4y2Ba}_{我gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba},gydF4y2Ba DgydF4y2Ba) \approxgydF4y2Ba \frac{∂gydF4y2Ba lgydF4y2Ba}{∂gydF4y2Ba ({wgydF4y2Ba}_{我gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba} ⊙gydF4y2Ba {米gydF4y2Ba}_{我gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba},gydF4y2Ba DgydF4y2Ba)} ({wgydF4y2Ba}_{我gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba} ⊙gydF4y2Ba {米gydF4y2Ba}_{我gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba}) =gydF4y2Ba \frac{∂gydF4y2Ba lgydF4y2Ba}{∂gydF4y2Ba {米gydF4y2Ba}_{我gydF4y2Ba}^{PgydF4y2Ba EgydF4y2Ba}} (gydF4y2Ba 5gydF4y2Ba)gydF4y2Ba

方程gydF4y2Ba5gydF4y2Ba表明PE-wise面具的梯度近似损失可以改变为新任务优化。因此,我们使用梯度的大小PE-wise面具表明适应性权重。无符号梯度较大的值的大小代表了相应PE-wise权重敏感变化的损失,必须重新学习。在此基础上,我们进行梯度生成敏感性得分排名计算正常化的梯度大小PE-wise面具,如图所示gydF4y2Ba算法1gydF4y2Ba。随后,top-P PE-wise最大的值被选为“1”面具,和其余的PEs标记为“0”值。这里,“P”是一个hyperparameter可以调整根据特定数据集和硬件的可用性。调整与以前的作品,只使用一个mini-batch数据来计算梯度足够精确。值得注意的是,计算成本是整个培训过程相比可以忽略不计。gydF4y2Ba

算法1。gydF4y2BaPE-wise面具学习。gydF4y2Ba

3.3二级列weight-frozen PEs的面具gydF4y2Ba

3.3.1离线面具三班学习gydF4y2Ba

在前一节中解释说,一级PE-wise面具的主要目的是选择新的特定于任务的PEs和重组的相应权重学习新功能新任务。减少ReRAM细胞编程能量,新的特定于任务的PEs的部分需要小(例如,10%)。因此,它让大多数的PEs non-adaptable或冰冻的。进一步把学习能力融入那些冰冻的PEs,在这项工作中,我们采用列转变为每个横梁列在冰冷的面具PEs出于我们之前工作(gydF4y2BaZhang et al ., 2022 b)gydF4y2Ba。gydF4y2Ba

在捎带方法(gydF4y2BaMallya et al ., 2018)gydF4y2Ba,采用了二元掩模是由binarizing可训练的实值面具gydF4y2Ba米gydF4y2Ba^rgydF4y2Ba,如在情商。gydF4y2Ba1gydF4y2Ba。这样的实值面具的大小代表了相应的骨干的重量模型的重要性。受此启发,实值口罩可以帮助提高适应能力。然而,从硬件的角度来看,乘以一个面具(即。,32-bit floating-point number) for every weight/partial sum is a tremendous overhead in both latency and energy. The learnable shift-based mask米gydF4y2Ba^{年代gydF4y2Ba}hardware-friendly取舍,保持二进制“1”的面具,但引入了额外的转变因素gydF4y2Ba一个gydF4y2Ba^{年代gydF4y2Ba}的替代二进制掩码中的零元素对应提高适应能力与hardware-friendly操作开销可以忽略不计。三班面具可以表示如下:gydF4y2Ba

{米gydF4y2Ba}^{年代gydF4y2Ba} =gydF4y2Ba [{米gydF4y2Ba}_{{米gydF4y2Ba}^{bgydF4y2Ba} =gydF4y2Ba 1gydF4y2Ba}^{bgydF4y2Ba},gydF4y2Ba {一个gydF4y2Ba}_{{米gydF4y2Ba}^{bgydF4y2Ba} =gydF4y2Ba 0gydF4y2Ba}^{年代gydF4y2Ba}] (gydF4y2Ba 6gydF4y2Ba)gydF4y2Ba

在哪里gydF4y2Ba ${米gydF4y2Ba}_{{米gydF4y2Ba}^{bgydF4y2Ba} =gydF4y2Ba 1gydF4y2Ba}^{bgydF4y2Ba}$ 意味着与所有“1”年代和三班的面具gydF4y2Ba ${一个gydF4y2Ba}_{{米gydF4y2Ba}^{bgydF4y2Ba} =gydF4y2Ba 0gydF4y2Ba}^{年代gydF4y2Ba}$ 表示二进制的“0”面具被转移的因素。它可以被理解为我们解决重要的内核(二进制掩码“1”)和规模不重要的内核(二进制掩码中“0”)作为新的任务转移水平不同。gydF4y2Ba

3.3.1.1学习转变的因素gydF4y2Ba一个gydF4y2Ba^{年代gydF4y2Ba}

在实践中,我们首先规范下的实值掩码范围[0,1],作为比例因子代表MTA的体重的重要性。然后,规范化的实值面具是最近的2的幂,值(即量化。1/2、1/4和1/8)或零。因此,三班的面具gydF4y2Ba米gydF4y2Ba^{年代gydF4y2Ba}最大可能包括三个不同的转变(即水平。,1/8,1/4、1/2)和两个non-shift水平(即。,0和1)。By doing so, the computing/memory-hungry multiplication operation between the real-valued mask and fixed weight can be replaced by the shift operation, resulting in computation and energy reduction. Moreover, such shift operation can be implemented by reusing the existing shift adder (SA) in most ReRAM-based IMC platforms without increasing hardware overhead. In addition, selecting the number of shift levels “NgydF4y2Ba“在三班面具是灵活的,可以调整,以达到不同的权衡精度和面具的开销。例如,如果gydF4y2BaNgydF4y2Ba= 3,它支持最大限度三个不同水平,转变(即两个non-shift水平。0 1/8 1/4、1/2、1),实现最佳的准确性。值得注意的是,面具值“1”意味着没有改变,和掩码值“0”意味着关闭当前的列。如果gydF4y2BaNgydF4y2Ba= 0,三班面具相当于二进制掩模与最小的内存开销。gydF4y2Ba

3.3.1.2学习二元掩模gydF4y2Ba米gydF4y2Ba^bgydF4y2Ba

学习二元掩模,我们利用Gumbel-Sigmoid技巧,灵感来自Gumbel-Softmax (gydF4y2Ba张成泽et al ., 2016)gydF4y2Ba,执行一个微分抽样近似分类随机变量。为乙状结肠函数gydF4y2BaσgydF4y2Ba(˙̇)可以被视为一个特殊的两舱softmax,它可以定义如下:gydF4y2Ba

pgydF4y2Ba ({米gydF4y2Ba}^{rgydF4y2Ba}) =gydF4y2Ba \frac{1gydF4y2Ba}{1gydF4y2Ba +gydF4y2Ba 经验值gydF4y2Ba (-gydF4y2Ba (日志gydF4y2Ba {πgydF4y2Ba}_{0gydF4y2Ba} +gydF4y2Ba {ggydF4y2Ba}_{0gydF4y2Ba} -gydF4y2Ba {ggydF4y2Ba}_{1gydF4y2Ba}) /gydF4y2Ba TgydF4y2Ba)},gydF4y2Ba (gydF4y2Ba 7gydF4y2Ba)gydF4y2Ba

在哪里gydF4y2BaπgydF4y2Ba_0gydF4y2Ba代表gydF4y2BaσgydF4y2Ba(gydF4y2Ba米gydF4y2Ba^rgydF4y2Ba)。gydF4y2BaggydF4y2Ba_0gydF4y2Ba和gydF4y2BaggydF4y2Ba_1gydF4y2Ba耿贝尔分布的样本。温度gydF4y2BaTgydF4y2Ba是一个hyperparameter调整输入值的范围。受益于情商的微分性质。gydF4y2Ba7gydF4y2Ba,实际价值的面具gydF4y2Ba米gydF4y2Ba^rgydF4y2Ba可以嵌入基于与现有梯度反向传播训练。代表gydF4y2BapgydF4y2Ba(gydF4y2Ba米gydF4y2Ba^rgydF4y2Ba),二进制格式gydF4y2Ba米gydF4y2Ba^bgydF4y2Ba中,我们使用一个硬阈值(即。,0。5)during the forward propagation of training. Because most values in the distribution ofpgydF4y2Ba(gydF4y2Ba米gydF4y2Ba^rgydF4y2Ba)将朝着0或1在训练,生成二进制的面具gydF4y2BapgydF4y2Ba(gydF4y2Ba米gydF4y2Ba^rgydF4y2Ba)(而不是实际价值的面具gydF4y2Ba米gydF4y2Ba^rgydF4y2Ba直接)可以更准确的决定,导致更好的精度。gydF4y2Ba

3.3.2列面具gydF4y2Ba

从系统层次结构的角度来看,应用以聪明元素面膜1 t1r数组是具有挑战性的,因为它需要独立操作每个ReRAM细胞和存储大小的面具一样1 t1r数组。灵感来自于1 t1r横梁阵列并行性,整个行或列共享相同的输入,盖茨和晶体管的水平或垂直相连。这样的行/列并行度允许的行/列控制现有的横梁设计。为了利用行/列并行,面具的大小定义为gydF4y2BaGgydF4y2Ba×gydF4y2BakhgydF4y2Ba×gydF4y2Ba千瓦gydF4y2Ba使它与横梁列的大小一致,即列面具,gydF4y2BaGgydF4y2Ba∈{1,gydF4y2BaCgydF4y2Ba_在gydF4y2Ba}。gydF4y2BaCgydF4y2Ba_在gydF4y2Ba输入通道尺寸。通过这种方式,一个掩码值可以控制整个列横梁数组,这将极大地提高计算效率比element-wise面具。在我们的设计中,横梁列的大小设置为72×1。同样,我们定义的组大小kernel-wise面具8×3×3组gydF4y2BaGgydF4y2Ba在算法= 8。gydF4y2Ba

4硬件实现gydF4y2Ba

图3gydF4y2Ba显示ReRAM横梁架构的概述支持提出了两层的面具的方法。它由一个I / O接口进行数据交换,分组的多个处理元素(PEs)作为计算的银行,和接口控制器对指令进行解码。在银行内部,PEs被分为两组。大部分的PEs用于主干模型映射。除此之外,一些PEs留作备用储备为新任务适应适应能力的权重。注意,XMA和XBM备用PEs适应性权重不习惯,因为他们没有tire-1 PE-wise面具。每个体育包括ReRAM横梁赋为卷积操作;全球ReLU和加法器树用于后处理部分和赋。在ReRAM赋,卷积内核映射ReRAM细胞电导。根据ReRAM设备和内核大小,它可能需要多个ReRAM细胞代表一个卷积内核。 For example, suppose each ReRAM cell can represent four different statuses equal to 2-bit information. Moreover, the convolution kernel is quantized to 4 bits. Then, each convolution weight requires two adjacent cells to map its higher and lower bits. In convolutional neural networks (CNNs), a convolution kernel usually exists as a 4D tensor with dimensionsHgydF4y2Ba×gydF4y2BaWgydF4y2Ba×gydF4y2Ba在gydF4y2Ba_cgydF4y2Ba×gydF4y2Ba出gydF4y2Ba_cgydF4y2Ba。传统上,卷积核是展开的gydF4y2Ba出gydF4y2Ba_cgydF4y2Ba尺寸最小化数据移动,因为输入是相同的gydF4y2Ba出gydF4y2Ba_cgydF4y2Ba维,虽然gydF4y2BaHgydF4y2Ba×gydF4y2BaWgydF4y2Ba×gydF4y2Ba在gydF4y2Ba_cgydF4y2Ba重量是独一无二的。类似于ReRAM横梁,输入是美联储通过水平SL和共享整个行。因此,不同的gydF4y2BaHgydF4y2Ba×gydF4y2BaWgydF4y2Ba×gydF4y2Ba在gydF4y2Ba_cgydF4y2Ba权重展开不同的一维向量和共享相同的输入映射到ReRAM列。由于精度不匹配的量子化的重量和ReRAM细胞,重量可以分成多个列。每一列只携带部分积累ADC读取部分激活。SA操纵部分激活重建实际激活。每一列的顶部,我们添加一个缓冲存储列面具,面具控制如何转变激活。然后发送到处理激活全球加法器树和ReLU,后来是传达给下一层作为输入。gydF4y2Ba

图3gydF4y2Ba

图3gydF4y2Ba。硬件结构和实现。gydF4y2Ba

离线学习新任务适应后,一级PE-wise面具表明,PE需要被禁用,取而代之的是新学习PE(通过编程实现系统的备用PEs)。相比之下,PE的其余部分将仍然需要使用新的特定于任务的模式。剩下的weight-frozen PEs,二级列掩码值存储在面具缓冲区。输入电压,gydF4y2BaVgydF4y2Ba一点应用于每一行操作SL,目前通过与电导每个ReRAM细胞gydF4y2BaGgydF4y2Ba计算乘法操作gydF4y2Ba我gydF4y2Ba=gydF4y2BaVgydF4y2Ba×gydF4y2BaGgydF4y2Ba。当前累积在列提单gydF4y2Ba∑我gydF4y2Ba并转换为位ADC系列,MAC的结果。如前所述,每个列的ADC输出只是部分结果和需求SA构建最终结果。在这一步中,SA也读取列将面具从面具缓冲区。因此,股价变化部分和结果基于其意义和相应的col-wise面具价值观的转变。之后,ReLU单位和本地存储缓冲区处理数据一样的骨架模型。gydF4y2Ba

5实验结果gydF4y2Ba

5.1算法的性能gydF4y2Ba

在本节中,我们评估了两层的屏蔽性能。公平的比较和之前工作的设置后,我们选择流行的ResNet-50 (gydF4y2Ba他et al ., 2015)gydF4y2Ba我们的骨架模型,pre-trained ImageNet数据集(gydF4y2BaRussakovsky et al ., 2015)gydF4y2Ba。运用五细粒度对象分类数据集执行MTA新任务,包括幼崽(gydF4y2Ba华et al ., 2011)gydF4y2Ba斯坦福大学汽车(gydF4y2BaKrause et al ., 2013)gydF4y2Ba花(gydF4y2BaNilsback Zisserman, 2008)gydF4y2BaWikiArt (gydF4y2Ba萨利赫和Elgammal, 2015)gydF4y2Ba和素描(gydF4y2BaEitz et al ., 2012)gydF4y2Ba。这些数据集进行了总结gydF4y2Ba表1gydF4y2Ba。gydF4y2Ba

表1gydF4y2Ba

表1gydF4y2Ba。数据集进行实验。gydF4y2Ba

5.1.1 col-wise面具的性能gydF4y2Ba

表2gydF4y2Ba显示列面具的推理精度在不同的数据集。在此设置中,没有PE-wise面具。我们假设没有重量重编程/更新所有的任务,和列适用于所有PEs面具。我们使量子化支柱模型4比特精度(4比特重量和4比特激活)模拟横梁推理行为。采用量化方法从利润(gydF4y2Ba公园和柳,2020)gydF4y2Ba。我们选择组的大小gydF4y2BaGgydF4y2Ba在实验= 8。组的概念也有助于减少训练参数,提高了训练的收敛速度。此外,分享掩码值在整个列显著节省内存开销面具存储。gydF4y2Ba

表2gydF4y2Ba

表2gydF4y2Ba。不同转移水平的影响。gydF4y2Ba

不同转移水平确定面具存储开销和影响精度。gydF4y2Ba表2gydF4y2Ba也显示了不同的准确性和面具开销水平转变。转移水平显示更好的成本的准确性更面具开销,面具的开销被定义为完整的存储所需的面具在存储所需的所有骨干模型中的权重。水平下降的转变,一个极端的例子是当没有转移水平可以在[0,1]的范围,也就是说面具只有二进制值。在这种情况下,我们三班面具方法(XMA)相当于列二元掩模(XBM)。由于集团面具共享、二元组面具只是大小gydF4y2Ba $\frac{1gydF4y2Ba}{72年gydF4y2Ba}$ 肩扛。ResNet-50骨干模型,捎带element-wise二进制面具需要23gydF4y2Ba米gydF4y2Ba/ 8 = 2.88gydF4y2BaMBgydF4y2Ba,而二进制面具只消耗大约40 KB。尽管二进制面具声称至少面具开销,它比其他三班方法达到最严重的准确性。最好的精度,三个转变的水平只需要不到100 KB的存储的面具,这是只有3.4%的(即沾光。,29.4×减少)。尽管减少,平均精度是捎带的高出3.2%。gydF4y2Ba

5.1.2层XMA的性能gydF4y2Ba^2gydF4y2Ba

表3gydF4y2Ba显示性能的2层mask-based XMAgydF4y2Ba^2gydF4y2Ba方法在上述数据集不同的方法和配置。它显示了调整结果基于浮点数表示演示的理论性能基线。的帮助下浮点数的精度高、fine-tuned-based方法灵活地改变任何权重最高的水平。因此,微调支柱模型准确率浮点数达到最好的在所有的数据集。gydF4y2Ba

表3gydF4y2Ba

表3gydF4y2Ba。多任务适应精度(%)。gydF4y2Ba

其他方法,我们采用quantization-aware培训(咔特)来模拟实际的硬件环境上的性能。利润(gydF4y2Ba公园和柳,2020)gydF4y2Ba用于数字转换重量和激活4位。捎带方案采用二进制element-wise面具,面具的二进制精度限制骨架模型的灵活性。因此,捎带显示比微调精度稍差。shift-mask-only (XMA)方法采用列转变面具与五个不同的面具水平(水平三个变化:1/8,1/4、1/2;和两个non-shift等级:0、1)。我们假设ReRAM横梁数组大小是72×72,这意味着每个数组可以映射一个3×3×8×72卷积内核。因此,集团规模共享同一掩模值在每一列3×3×8。ImageNet是更大、更复杂的比其他数据集,shift-mask-only性能已经接近微调对大多数数据集。然而,仍有相当大的差距的微调和shift-mask-only方法。尤其是在WikiArt数据集,shift-mask-only方法显示几乎5%的准确率下降而微调。我们提出了两层的面具被标记为shift-mask +微调,因为两个不同的面具与重量微调和激活转变,分别。 We conduct a series of experiments with 5% PE-wise weight fine-tuning to 40% PE-wise weight fine-tuning to explore how much weight fine-tuning is necessary to achieve a considerable accuracy improvement. The result shows that the accuracy improved significantly even with the help of 10% weight fine-tuning. It achieves higher accuracy than those of the piggyback and shift-mask-only methods for all datasets. This is especially true for the WikiArt dataset, where the piggyback and shift-mask-only methods show the most degraded accuracy. Note that the accuracy does not increase monotonically with increasing tunable parameters. This is because fine-tuning is not element-wise. We fine-tune the weights in a PE-wise fashion. We first rank the PEs based on the sensitivity score. Therefore, when we fine-tune more weights (more PEs), the extra weights (PEs) are less sensitive to the target dataset (minor sensitivity score). Thus, fine-tuning those weights (PEs) will have less benefit. On the contrary, the less sensitive PEs extract more general features. As the new task is usually way smaller than the ImageNet dataset (some dataset even has more test images than training images), fine-tuning those less sensitive PEs will lose more general features. More tunable parameters make the NN harder to train.

5.2硬件评估gydF4y2Ba

我们实现提出了两层的面具算法在硬件上,如图所示gydF4y2Ba图3gydF4y2Ba。不同算法的硬件性能评估基于NeuroSim (gydF4y2Ba彭et al ., 2019)gydF4y2Ba。会被4比特量化权重款RRAM阵列高频振荡器gydF4y2Ba_2gydF4y2Ba基于2比特每单元装置,特点是gydF4y2Ba吴et al。(2018)gydF4y2Ba与一个32纳米CMOS节点。ReRAM阵列特征,总结了使用面积gydF4y2Ba表4gydF4y2Ba和gydF4y2Ba图4gydF4y2Ba。每个ReRAM列是连接到一个位逐次逼近寄存器(SAR)模拟-数字转换器(ADC)。全球指定缓冲区的最大激活特性模型的映射。gydF4y2Ba图5gydF4y2Ba显示不同的子任务不同算法的开销。每个子任务的总能量推理推理和重组能源的总和。对于每个更新重量元素,重组能量计算基于电压写,写脉冲,电导水平变化(gydF4y2Ba吴et al ., 2018gydF4y2Ba;gydF4y2Ba陈P.-Y。et al ., 2018)gydF4y2Ba。特定于任务的微调生成精度最高的但是需要通用重组甚至第二次部署。重组阻碍了务实的高能源消耗持续学习的好处。捎带(gydF4y2BaMallya et al ., 2018)gydF4y2Ba对于不同的任务部分项目权重为零。推理能源相比,重组element-wise稀疏提升8.16×的总能量。此外,element-wise稀疏需要额外的细粒度的稀疏索引,导致复杂的硬件设计和存储开销。gydF4y2Ba

表4gydF4y2Ba

表4gydF4y2Ba。规范ReRAM硬件和外围电路。gydF4y2Ba

图4gydF4y2Ba

图4gydF4y2Ba。区域分解4比特ResNet-50骨干模型的硬件部署。外围电路,包括ReLU模块,加法器树,面具缓冲区。gydF4y2Ba

图5gydF4y2Ba

图5gydF4y2Ba。总能量(重组+推理)/推论能量不同的学习任务和方法。gydF4y2Ba

不同的天真的微调或肩扛(gydF4y2BaMallya et al ., 2018)gydF4y2Ba学习,该算法更新模型以结构化的方式。边际10%重组ReRAM列不同子任务没有细粒度的索引更新模型。微调和肩扛(相比gydF4y2BaMallya et al ., 2018)gydF4y2Ba方法,这项工作减少了能源消费总量为13.72×4.38×,分别如图所示gydF4y2Ba图4gydF4y2Ba。这样重要的能源减少XMA求婚gydF4y2Ba^2gydF4y2Ba算法可以引起的实际优势不断学习。gydF4y2Ba

6结论gydF4y2Ba

总之,我们提议XMAgydF4y2Ba^2gydF4y2Ba层mask-based学习框架,有效、准确地将MTA部署到crossbar-based款加速器。XMA的主要贡献gydF4y2Ba^2gydF4y2Ba是,它包含两个不同的面具,在新知识学习和旧知识重组工作。它可以使神经网络结构和学习新任务的数据流。此外,它是灵活的重量之间的权衡重组开销和新任务的性能。此外,XMAgydF4y2Ba^2gydF4y2Ba重用现有的SA应用三班面具到一个固定的重量和减少硬件开销。XMAgydF4y2Ba^2gydF4y2Ba大大节省了推理能源相比其他mask-based方法而达到更高的精度。gydF4y2Ba

数据可用性声明gydF4y2Ba

最初的贡献提出了研究中都包含在本文/辅料,可以针对相应的作者进一步询问。gydF4y2Ba

作者的贡献gydF4y2Ba

FZ:第一作者进行的实验和论文写作。LY:第二作者帮助进行实验,论文写作和讨论想法。JM:第三作者帮助进行硬件评估及相关部分的写作。JS和YC帮助讨论这个想法和实验。帮助校对/波兰手稿,DF,相应的作者,有助于开展合作,形成想法,校对/波兰手稿。gydF4y2Ba

资金gydF4y2Ba

这项工作是由美国国家科学基金会支持部分格兰特No.2003749之下,并没有。2144751。gydF4y2Ba

确认gydF4y2Ba

一些材料的发表在本文中首次出现的第59届ACM和IEEE设计自动化学报》会议。可以访问相应的会议论文:gydF4y2Bahttps://dl.acm.org/doi/10.1145/3489517.3530458gydF4y2Ba。作者证实他们持有版权在本文发表的材料。gydF4y2Ba

的利益冲突gydF4y2Ba

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。gydF4y2Ba

出版商的注意gydF4y2Ba

本文表达的所有索赔仅代表作者,不一定代表的附属组织或出版商、编辑和评论员。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。gydF4y2Ba

引用gydF4y2Ba

Akinaga, H。,Shima, H. (2010). Resistive random access memory (reram) based on metal oxides.Proc。IEEEgydF4y2Ba98年,2237 - 2251。doi: 10.1109 / JPROC.2010.2070830gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Ankit,。,H一个jj, I. E., Chalamalasetti, S. R., Ndu, G., Foltin, M., Williams, R. S., et al. (2019). “Puma: A programmable ultra-efficient memristor-based accelerator for machine learning inference,” in《第二十四建筑国际会议上支持的编程语言和操作系统gydF4y2Ba(纽约,纽约,美国:gydF4y2Ba计算机协会gydF4y2Ba),715 - 731。doi: 10.1145/3297858.3304049gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Cai, F。,Correll, J. M., Lee, S. H., Lim, Y., Bothra, V., Zhang, Z., et al. (2019). A fully integrated reprogrammable memristor–cmos system for efficient multiply–accumulate operations.Nat。电子。gydF4y2Ba2,290 - 299。doi: 10.1038 / s41928 - 019 - 0270 - xgydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

陈,F。,l我,H。(2018). “Emat: An efficient multi-task architecture for transfer learning using reram,” in2018年IEEE计算机辅助设计/ ACM国际会议上(ICCAD)gydF4y2Ba。doi: 10.1145/3240765.3240805gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

陈,P.-Y。彭,X。,Yu, S. (2018a). Neurosim: A circuit-level macro model for benchmarking neuro-inspired architectures in online learning.IEEE反式。第一版。降落凡间的。Des,中国。电路系统。gydF4y2Ba37岁,3067 - 3080。doi: 10.1109 / tcad.2018.2789723gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

陈,W.-H。、李K.-X。,l我n, W.-Y., Hsu, K.-H., Li, P.-Y., Yang, C.-H., et al. (2018b). “A 65nm 1mb nonvolatile computing-in-memory reram macro with sub-16ns multiply-and-accumulate for binary dnn ai edge processors,” in2018年IEEE国际固体-状态电路会议(globalfoundries)gydF4y2Ba,494 - 496。doi: 10.1109 / ISSCC.2018.8310400gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

陈,y (2020)。Reram:历史、现状和未来。gydF4y2BaIEEE反式。电子设备gydF4y2Ba67年,1420 - 1433。doi: 10.1109 / TED.2019.2961505gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

程,M。夏,L。、朱、Z。Cai, Y。谢,Y。,W一个ng, Y., et al. (2019). Time: A training-in-memory architecture for rram-based deep neural networks.IEEE反式。第一版。降落凡间的。Des,中国。电路系统。gydF4y2Ba38岁,834 - 847。doi: 10.1109 / TCAD.2018.2824304gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

气,P。,李。,徐,C。,Zhang, T., Zhao, J., Liu, Y., et al. (2016). Prime: A novel processing-in-memory architecture for neural network computation in reram-based main memory.SIGARCH第一版。Archit。新闻gydF4y2Ba44岁的27-39。doi: 10.1145/3007787.3001140gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

崔J。,Venkataramani, S., Srinivasan, V., Gopalakrishnan, K., Wang, Z., and Chuang, P. (2019). “Accurate and efficient 2-bit quantized neural networks,” inMLSysgydF4y2Ba。gydF4y2Ba

原始研究的文章gydF4y2Ba

XMAgydF4y2Ba2gydF4y2Ba:crossbar-aware多任务适应框架gydF4y2Ba通过gydF4y2Ba两层的面具gydF4y2Ba

1介绍gydF4y2Ba

2背景gydF4y2Ba

2.1多任务适应gydF4y2Ba

2.2 ReRAM-based神经网络加速器gydF4y2Ba

2.3神经网络量化和修剪gydF4y2Ba

3的方法gydF4y2Ba

3.1概述gydF4y2Ba

3.2一级PE-wise面具学习gydF4y2Ba

3.2.1梯度排名确定PE-wise适应性的权重gydF4y2Ba

3.3二级列weight-frozen PEs的面具gydF4y2Ba

3.3.1离线面具三班学习gydF4y2Ba

3.3.1.1学习转变的因素gydF4y2Ba一个gydF4y2Ba年代gydF4y2Ba

3.3.1.2学习二元掩模gydF4y2Ba米gydF4y2BabgydF4y2Ba

3.3.2列面具gydF4y2Ba

4硬件实现gydF4y2Ba

5实验结果gydF4y2Ba

5.1算法的性能gydF4y2Ba

5.1.1 col-wise面具的性能gydF4y2Ba

5.1.2层XMA的性能gydF4y2Ba2gydF4y2Ba

5.2硬件评估gydF4y2Ba

6结论gydF4y2Ba

数据可用性声明gydF4y2Ba

作者的贡献gydF4y2Ba

资金gydF4y2Ba

确认gydF4y2Ba

的利益冲突gydF4y2Ba

出版商的注意gydF4y2Ba

引用gydF4y2Ba

本文是研究课题的一部分gydF4y2Ba

人也看了gydF4y2Ba

XMAgydF4y2Ba^2gydF4y2Ba:crossbar-aware多任务适应框架gydF4y2Ba通过gydF4y2Ba两层的面具gydF4y2Ba

3.3.1.1学习转变的因素gydF4y2Ba一个gydF4y2Ba^{年代gydF4y2Ba}

3.3.1.2学习二元掩模gydF4y2Ba米gydF4y2Ba^bgydF4y2Ba

5.1.2层XMA的性能gydF4y2Ba^2gydF4y2Ba