云忠来自奥菲寺
量子比特编辑|微信官方账号QbitAI
2021年2月13日至2月22日,第68届国际固态电路大会通过线上模式成功举办。清华大学教授和刘教授团队给出了题为“基于有效权重的卷积和基于误差补偿的预测的28纳米12.1粒子/w双模CNN处理器”的学术报告。
本报告介绍一种量化卷积神经网络加速芯片——QNAP。通过挖掘量化后的CNN模型权重的冗余特征,提出一种优化方法,可以显著减少冗余权重带来的冗余乘法运算,从而降低硬件功耗。同时提出了减少ReLU激活函数导致的冗余乘加运算的预测方法,显著提高了CNN硬件的运行性能此外,针对广泛使用的残差结构,提出了一种特殊的流水线结构,减少了残差结构中大量的片外内存访问操作。基于TSCM 28 nm工艺,QNAP仅消耗1.9mm2面积,实现高达12.1 TOPS/W的能效,明显优于现有成果。
记者莫是该论文的第一作者,目前正在清华大学微电子研究所攻读博士学位。
△图1莫报告论文的主要工作
随着人工智能技术的发展,CNN模型的计算量呈指数级增长。然而,对于计算资源有限的设备,如移动设备、物联网边缘设备等,CNN模型庞大的计算量是无法接受的。
为了应对这一挑战,学术界和工业界都开始研究CNN模型加速芯片。目前绝大多数CNN加速芯片都是基于量化模型设计的,但量化模型会产生大量的重复权重,根据卷积计算的特点和乘法规律,会造成大量的冗余乘法运算;另外,根据ReLU激活函数的特点,当卷积结果为负时,激活值将为0。因此,如果只有部分计算可以准确预测卷积结果值为负,则可以省略后续的卷积运算,以提高整个卷积运算的性能。同时,主流CNN模型中广泛使用的残差结构,由于其跳层结构,会产生大量高能耗的片外内存访问操作。
△图2当前量化CNN模型硬件实现的挑战
针对上述问题,和刘团队提出了基于有效权重的卷积方法和误差补偿预测方法,并完成了芯片架构设计,可以同时减少量化后CNN模型的冗余计算和硬件资源开销。
针对CNN模型量化后权重冗余大的问题,提出一种权重分解方法,进一步将有效权重压缩到可控范围;设计了专门的处理单元来匹配编码权重,可以在不损失精度的情况下大大减少冗余乘法运算,提高芯片的整体能效;针对ReLU激活函数带来的冗余计算,提出了一种基于误差补偿的方法,通过设置预测表来判断激活值是否需要补偿,从而降低精度损失,提高模型执行性能。
针对剩余结构中存在大量内存访问操作的情况,提出了一种逐层流水线结构,将所有硬件资源在每个时间段分配给某一层网络进行操作,得到部分结果,然后在下一个时间段将结果传输给下一层网络进行处理,避免了大量的片外内存访问操作,提高了硬件的利用率。
基于TSMC 28 nm工艺,QNAP的核心面积为1.9mm2,在电压为0.6~0.9 V,对应工作频率为100 ~ 470 MHz时,功耗仅为19.4 ~ 131.6 mW。用8位量化
以Alex net/VG gnet/googlenet/resnet为参考网络,QNAP在470 MHz、0.9V下实现了12.1 TOPS/W的能效,是目前最优处理器平均性能的3.56倍。
△图3基于有效权重的卷积运算
△图4基于误差补偿的预测方法
△图5逐层流水线架构
△图6 QNAP芯片及其硬件指标
10年来,教授、刘教授在软件定义芯片领域取得多项技术突破,关键技术在一系列国家重大项目中批量应用。曾获国家技术发明奖二等奖、教育部技术发明奖一等奖、电子学会技术发明奖一等奖、中国发明专利金奖、世界互联网大会世界互联网领先科技成果15项等多项重要科技奖项。
关于ISSCC
ISSCC被世界学术界和企业界公认为集成电路设计领域的最高级别会议,被誉为集成电路设计领域的“奥林匹克大会”。大会首次披露了世界上第一个TTL电路、世界上第一个8位微处理器、世界上第一个1Gb DRAM、世界上第一个GHz微处理器、世界上第一个多核处理器等众多集成电路史上的里程碑式发明。自1954年以来,该会议已成功举行了68届。
-结束-