2018年5月27日
[本篇访问: 6327]
南大王中风教授团队在人工智能(AI)加速器设计方面取得系列突破

国家“千人计划”特聘专家、IEEE Fellow、南京大学电子科学与工程学院王中风教授是数字信号处理系统硬件实现方面的国际顶级专家。2016年初全职加入南京大学电子科学与工程学院后,王中风教授领导创建了南京大学集成电路与智能系统(ICAIS)实验室,积极开展新一代人工智能技术特别是深度机器学习加速器设计方面的研究。到目前为止,该团队在深度神经网络的模型压缩和高能效硬件加速器设计方面成果显著,2017年该团队在IEEE Circuits and Systems Society的主流期刊上共发表三篇长文。同年,王中风教授在深度学习的硬件实现方面合作的IEEE一类期刊论文有四篇在线发表,在国际同行中处于领先地位。

众所周知,人工智能(AI)已经成为当前全球学界、企业界乃至普通民众高度关注的热点话题。基于神经网络的深度学习算法已经在计算机视觉、自然语言处理等领域大放异彩。与此同时,深度学习算法的成功又反过来推动了硬件的发展。目前,硬件对深度学习算法的支持主要包括两个方面:一个是训练阶段,需要非常高的算力支持大规模深度神经网络模型的训练;另一个是推理阶段,需要将训练好的模型部署到实际的应用场景下,包括在需要高性能、高吞吐率的数据中心端提供云服务,以及在需要低功耗的嵌入式/移动终端相关的应用。

使用 GPU 来进行神经网络的训练已经成为研究深度学习算法的标配,但在进行实际部署时,由于深度神经网络模型往往伴随着极高的存储空间需求和计算复杂度,包括GPU、CPU在内的传统通用计算平台,在大多数情况下,并不能满足实际模型部署对功耗和性能(或者能效比)的综合需求,这也使得一些具有更高综合能效比的硬件,如 FPGA 和面向 AI 应用的 ASIC(包括可重构ASIC) 芯片逐渐获得关注。为了满足深度神经网络模型在不同的应用场景下对算力和能效的需求,一方面,可以利用现有深度神经网络模型存在内在冗余这一特性,在不损失模型精度的前提下,从算法层面对模型进行裁剪和优化;另一方面,可以设计针对深度神经网络模型的计算模式进行优化的高能效硬件架构,用于加速模型的计算过程。当然,也可以同时结合这两个方面,做算法和硬件的协同设计和优化。

在这波 AI 浪潮中,国内也有不少高校和研究机构从事相关的研究,并在国际上取得了可观的影响力。王中风教授领导的南京大学集成电路与智能系统(ICAIS)实验室,最近在这方面取得了一系列突出成果,包括:1. 基于有限冲击响应算法的高效可配置快速卷积单元,设计了可以高效实现各种常见卷积操作的可配置卷积单元,并在硬件利用率、功耗和可配置性之间达到了最优的平衡。2. 提出了等间隔非均匀定点量化(Equal Distance Intra-Layer Non-Uniform Quantization)和K平均聚类非均匀定点量化(K-means Cluster Intra-Layer Non-Uniform Quantization)两种量化方法,可以大大降低卷积神经网络中激励 (activation) 的存储需求。相比于已有的针对激励的量化方法,可以在不损失精度的情况下提高压缩率2倍以上。 3. 提出了高效的卷积神经网络处理和存储架构。基于 VGG16的测试结果表明,其创新的数据存储方式相比于传统的存储架构可以节省大约14倍的片上存储资源,在同样的平台下资源利用率比同类设计高出2倍以上 (“Efficient Hardware Architectures for Deep Convolutional Neural Networks”, IEEE Circuits and Systems-I 会刊2017年在线发表)。4. 提出了一种高能效的二值参数卷积神经网络的硬件架构, 并且引入了多种近似计算技术。此外,该架构还采用了一种优化的计算流程,最大程度地减少了访问DRAM的次数和带宽需求。相比于已有的二值网络芯片设计在能效方面提升2倍以上 (“An Energy-Efficient Architecture for Binary Weight Convolutional Neural Networks”, IEEE VLSI Systems 会刊 2017年在线发表)。5. 在递归神经网络的模型压缩与硬件架构设计方面,在基本不损失模型预测精度的前提下取得了超过20倍的参数压缩率,计算复杂度也大大减少 (“Accelerating Recurrent Neural Networks: A Memory-Efficient Approach”, IEEE VLSI Systems 会刊 2017年第10期) 。

此外,王中风教授团队还在该领域其它方向开展了探索和研究,如研究了高能效的能耗-精度可伸缩的卷积神经网络硬件加速器结构,基于隐私保护的深度学习算法及其硬件架构,基于张量分解的神经网络的嵌入式硬件架构,以及递归神经网络的负载均衡稀疏化方法等。(电子学院)