電(diàn)阻式存储器為(wèi)边缘AI提供了受生物(wù)启发的架构--上海韬放電(diàn)子科(kē)技有(yǒu)限公司

24小(xiǎo)时联系電(diàn)话:18217114652、13661815404

中文(wén)

您当前的位置：: 首页>; 電(diàn)子资讯>; 技术专题>; 電(diàn)阻式存储器為(wèi)边缘AI...

技术专题

電(diàn)阻式存储器為(wèi)边缘AI提供了受生物(wù)启发的架构

2020-06-23

近年来，在脑启发计算领域的研究活动获得了巨大的发展。主要原因是试图超越传统的冯·诺依曼架构的局限性，后者越来越受存储器-逻辑通信的带宽和等待时间的局限性影响。在神经形态架构中，内存是分(fēn)布式的，可(kě)以与逻辑共定位。鉴于新(xīn)的電(diàn)阻式存储器技术可(kě)以集成在CMOS工艺的互连层中，因此可(kě)以轻松地提供这种可(kě)能(néng)性。

虽然目前AI部署中的大部分(fēn)注意力都集中在大型常规计算系统中实现深度學(xué)习算法，但对设备和電(diàn)路技术的影响却是混杂的。尽管先进的标准CMOS技术已用(yòng)于开发GPU和特定的電(diàn)路加速器，但并没有(yǒu)真正推动使用(yòng)任何“受生物(wù)启发”的硬件。新(xīn)兴的電(diàn)阻式存储设备（RRAM）可(kě)以打开途径，由于能(néng)够（感知到）不够成熟，可(kě)以通过在相对较低的偏置電(diàn)压下调节電(diàn)导来在纳米尺度上模拟生物(wù)學(xué)上合理(lǐ)的突触行為(wèi)，因此这些方法仅限于研究组。技术。

但是，这些新(xīn)设备可(kě)以為(wèi)将AI大量部署到消费和工业产品中所面临的主要问题之一提供解决方案：能(néng)源效率。如果将AI的使用(yòng)范围扩大，将所有(yǒu)数据传输到云/服務(wù)器系统进行分(fēn)析的能(néng)源开销将很(hěn)快达到AI的经济可(kě)行性的极限。此外，对于自动驾驶汽車(chē)和工业控制等实时系统而言，如果连接到5G基础架构以处理(lǐ)数据的服務(wù)器集中在定义明确的區(qū)域而不是分(fēn)布在整个基础架构中，则延迟仍然是一个问题。由于这些原因，并且在欧洲也出于隐私考虑，具有(yǒu)高度节能(néng)的边缘/使用(yòng)点的，具有(yǒu)AI的系统将变得越来越重要，并且可(kě)能(néng)会逐步改善本地學(xué)习能(néng)力。

嵌入式AI系统非常适合处理(lǐ)需要实时响应的数据，并且在能(néng)源是主要问题的情况下。如tinyML计划的成功所证明的那样，对此类系统的兴趣正在增長(cháng)[1]。当处理(lǐ)稀疏，时域，由传感器（如麦克风，激光雷达，超声波等）生成的数据流时，该领域的生物(wù)启发（即存储元件还充当互连和计算元件）方法具有(yǒu)额外的优势。这些系统将然后能(néng)够在模拟域中进行大多(duō)数操作，从而避免了耗電(diàn)，不必要的多(duō)次模数转换以及使用(yòng)非时钟数据驱动架构来简化数据流。仅在信号脉冲期间没有(yǒu)时钟和存储元件中的耗散，在没有(yǒu)输入的情况下会导致极低的功耗（因此适用(yòng)于稀疏信号），并且可(kě)能(néng)不需要特定的睡眠模式即可(kě)获得電(diàn)池供電(diàn)的工作状态。而且，非易失性仅在首次上電(diàn)或系统最终更新(xīn)时才需要设置参数，而在每次上電(diàn)时都不需要从外部来源进行传输。

但是，使用(yòng)新(xīn)型電(diàn)阻式存储器不仅限于此类“边缘”或“生物(wù)启发”应用(yòng)，还可(kě)以使执行慢速非易失性高速缓存/快速大容量存储中间存储器功能(néng)的传统全数字时钟系统受益神经加速器的水平。在这种情况下，好处将是减少快速DRAM和SRAM缓存區(qū)域，同时仍减少访问大容量存储的延迟。

生物(wù)启发式计算的硬件平台

从技术角度来看，RRAM由于具有(yǒu)CMOS兼容性，高可(kě)伸缩性，强大的耐用(yòng)性和良好的保留特性，因此是神经形态应用(yòng)的良好候选者。但是，定义大规模混合集成神经形态系统（具有(yǒu)阻性记忆突触的CMOS神经元）的实际实施策略和有(yǒu)用(yòng)应用(yòng)仍然是一个困难的挑战

已经提出了诸如相变存储器（PCM），导電(diàn)桥RAM（CBRAM）和氧化物(wù)RAM（OxRAM）之类的電(diàn)阻RAM（RRAM）设备来模拟生物(wù)學(xué)上受突触功能(néng)启发的功能(néng)，这些功能(néng)对于实现神经形态硬件至关重要。在不同类型的模拟突触特征中，依赖于尖峰时序的可(kě)塑性（STDP）是最常用(yòng)的一种，但肯定不是唯一的可(kě)能(néng)性，并且某些可(kě)能(néng)显示出对实际应用(yòng)的实现更為(wèi)有(yǒu)用(yòng)。

实施这些思想并验证该方法的電(diàn)路示例是SPIRIT，由IEDM 2019提出[2]。已实现的SNN拓扑是单层的，完全连接的拓扑，其目的是在MNIST数据库上执行推理(lǐ)任務(wù)，有(yǒu)10个输出神经元，每个类一个。為(wèi)了减少突触的数量，将图像缩小(xiǎo)到12×12像素（每个神经元144个突触）。使用(yòng)单级单元（SLC）RRAM实现突触，即仅考虑低和高電(diàn)阻级别。结构為(wèi)1T-1R类型，每个单元带有(yǒu)一个访问晶體(tǐ)管。多(duō)个单元并联连接以实现各种重量。在學(xué)习框架上进行的突触量化实验表明，介于-4到+4之间的整数值是分(fēn)类精度和RRAM数量之间的良好折衷。由于我们旨在获得加权電(diàn)流，因此必须使用(yòng)4个RRAM作為(wèi)正权重。对于负权重，也可(kě)以使用(yòng)RRAM对符号位进行编码：但是，由于将需要容错三重冗余，因此最好使用(yòng)4个附加RRAM来实现负权重。

“集成与射击（IF）”模拟神经元设计是在数學(xué)等效性的指导下进行的，该数學(xué)等效性是在有(yǒu)监督的离線(xiàn)學(xué)习中使用(yòng)的tanh激活函数。规格如下：（1）突触重量等于±4的刺激必须产生尖峰；（2）神经元必须产生正负尖峰；（3）它们必须有(yǒu)一个不应期，在此期间它们不能(néng)散发尖峰，但必须继续积分(fēn)。神经元是围绕MOM 200fF電(diàn)容器设计的。使用(yòng)两个比较器将其電(diàn)压電(diàn)平与正阈值和负阈值进行比较。由于必须在RRAM的端子之间以不超过100mV的電(diàn)压降读取RRAM，因此，為(wèi)了防止将设备设置為(wèi)LRS，所获得的電(diàn)流不能(néng)被神经元直接积分(fēn)，因此它们会被電(diàn)流注入器复制。评估了编程条件的影响，并使用(yòng)足够的编程条件来确保有(yǒu)足够大的内存窗口。放松机制的确出现在很(hěn)短的时间范围内（不到一小(xiǎo)时）。因此，分(fēn)类精度不会随时间降低。还验证了读取稳定性，将高达800M的峰值发送到電(diàn)路。

MNIST数据库的10K测试图像上的分(fēn)类精度测得為(wèi)84％。该值必须与88％的理(lǐ)想模拟获得的精度进行比较，该精度受简单的网络拓扑限制（1层具有(yǒu)10个输出神经元）。每个突触事件的能(néng)量耗散等于3.6 pJ。当考虑電(diàn)路逻辑和SPI接口时，它总计為(wèi)180 pJ（可(kě)以通过优化通信协议来降低它）。测量表明，图像分(fēn)类平均需要136个输入峰值（对于ΔS= 10）：每个输入所累积的峰值少于一个峰值，与130nm节点中的等效形式编码MAC操作相比，能(néng)量增益提高了5倍。能(néng)量增益来自（1）基本操作的轻度（累积，而不是像经典编码中那样进行乘法累加）和（2）由于尖峰编码而导致的活动稀疏性。稀疏性的好处将随着层数的增加而增加。

这个小(xiǎo)演示者展示了如何可(kě)以与传统的嵌入式方法相提并论，但功耗却大大降低了。实际上，在SNN演示中使用(yòng)的速率代码使该实现等效于经典编码的实现：从经典域到尖峰域的代码转换不会引起准确性上的任何损失。但是，从概念验证中使用(yòng)的简单拓扑（即单层感知器）可(kě)以解释，与使用(yòng)更大网络和更多(duō)层的最新(xīn)深度學(xué)习模型相比，分(fēn)类精度略低。為(wèi)了克服这种差异，目前正在实施一种更為(wèi)复杂的拓扑结构（MobileNet类），并且分(fēn)类精度将相应提高，同时具有(yǒu)相同的能(néng)源优势。

相同的方法将扩展到嵌入了麦克风或激光雷达的電(diàn)路，以本地和实时分(fēn)析数据流，从而无需通过网络传输。速率编码和时间编码策略都可(kě)以用(yòng)于优化网络，具體(tǐ)取决于信号的信息内容。最初，學(xué)习将集中进行，并且仅将推理(lǐ)集成到系统中，但是在以后的世代中将引入一定程度的增量學(xué)习。

利用(yòng)对嵌入式AI产品有(yǒu)益的属性RRAM的另一种方法是使用(yòng)基于RRAM交叉开关阵列的模拟架构。与传统的数字实现相比，它们可(kě)以提供更密集的乘法累加器（MAC）功能(néng)实现，在推理(lǐ)和學(xué)习電(diàn)路中居于中心。如果采取进入时域并消除时钟的进一步步骤，则可(kě)获得超出当前技术水平的紧凑型低功率系统。尽管这种方法非常有(yǒu)前途并且受到學(xué)术界的广泛研究，但该方法仍未被业界广泛接受，这指出了设计，验证，表征和认证模拟异步设计的难度，以及扩展模拟解决方案的难度。在我们看来，

这些记忆的部分(fēn)感知困难来自观察到的变异性，但这是实验条件的反映。当在300mm内工作并且集成过程更加成熟时，我们观察到更好的分(fēn)布，因此我们假设可(kě)变性问题可(kě)以在工业化过程中解决。设计工具也即将问世，更精确的模型也逐渐可(kě)用(yòng)。温度变化当然会产生影响，但是这种计算类型的统计性质及其在推理(lǐ)阶段对参数变化在某种程度上具有(yǒu)固有(yǒu)的鲁棒性，因此其最终影响遠(yuǎn)不如使用(yòng)社區(qū)的常规模拟设计那么重要。模拟交叉开关方法的优点之一是，当施加“零”数据时，自动没有(yǒu)電(diàn)流。

有(yǒu)些问题更為(wèi)根本。第一个是功率效率和高度并行性来自权衡时间复用(yòng)（工作频率）与面积的关系：权衡有(yǒu)利的网大小(xiǎo)（问题或类别数量）的极限是多(duō)少？它如何取决于实现节点？另一个是这些存储器的可(kě)循环性。虽然对于推理(lǐ)阶段就足够了，并且可(kě)以在初始化阶段以可(kě)接受的开销进行交叉开关的编程，但是由于过多(duō)的写入负载，使用(yòng)经典的反向传播方案和迭代次数的片上學(xué)习是毫无疑问的。但是，正在探索使用(yòng)其他(tā)學(xué)习方法的非常有(yǒu)前途的途径，并有(yǒu)望在未来几年内提供有(yǒu)效的解决方案。

在引入这种类型的電(diàn)路之前，可(kě)以在常规实现中使用(yòng)RRAM和3D集成等技术来以较小(xiǎo)的功率预算和较小(xiǎo)的尺寸系数提供解决方案。如今，用(yòng)于高度定制化应用(yòng)的FPGA实现，运行在MCU或CPU上的纯软件实现，或专用(yòng)于GPU的高度并行多(duō)核/加速器（类似于或类似的GPU）用(yòng)于更通用(yòng)的应用(yòng)，已成為(wèi)当今的主流。所有(yǒu)这些都可(kě)以从本地非易失性存储器中受益，这可(kě)以使FPGA变得更紧凑，為(wèi)MCU / CPU和多(duō)核/加速器芯片提供更优化的存储器层次结构。

上一篇：将VSWR与PCB设计中的回波损耗联系起来: 下一篇：自动化C测试用(yòng)例以进行嵌入式系统验证

技术专题

電(diàn)阻式存储器為(wèi)边缘AI提供了受生物(wù)启发的架构

相关新(xīn)闻

電(diàn)子资讯

最新(xīn)新(xīn)闻