论文阅读列表
- 这是一个旨在减小模型规模或用于机器学习(特别是深度神经网络相关应用)的ASIC/FPGA加速器的论文集合。(受 Neural-Networks-on-Silicon 启发)
- 教程:
目录
我们的贡献
- 待完成
网络压缩
这个领域正在快速变化,以下条目可能有些过时。
参数共享
- 结构化矩阵
- 用于节能深度学习的结构化卷积矩阵。(IBM Research–Almaden)
- 用于小型深度学习的结构化变换。(Google Inc)
- 探索具有循环投影的深度网络中的参数冗余。
- 低位移秩权重矩阵神经网络的理论性质。
- 哈希
- 用于压缩神经网络的函数哈希。(百度公司)
- 使用哈希技巧压缩神经网络。(华盛顿大学 + NVIDIA)
- 学习紧凑的循环神经网络。(南加州大学 + Google)
教师-学生机制(蒸馏)
- 在神经网络中蒸馏知识。(Google Inc)
- 序列级知识蒸馏。(哈佛大学)
- 喜欢你所喜欢的:通过神经元选择性转移进行知识蒸馏。(TuSimple)
定点训练和存储
- 二值/三值神经网络
- XNOR-Net, 三值权重网络 (TWNs), Binary-net 及其变体。
- 深度神经网络对权重二值化和其他非线性失真具有鲁棒性。(IBM Research–Almaden)
- 具有有限数值精度的循环神经网络。(苏黎世联邦理工学院 + 蒙特利尔@Yoshua Bengio)
- 具有少量乘法的神经网络。(蒙特利尔@Yoshua Bengio)
- 1比特随机梯度下降及其在语音DNN数据并行分布式训练中的应用。(清华大学 + 微软)
- 走向网络量化的极限。(三星美国研发中心)
- 增量网络量化:实现低精度权重的无损CNNs。(英特尔中国实验室)
- 深度网络的损失感知二值化。(香港科技大学)
- 训练三值量化。(清华大学 + 斯坦福大学 + NVIDIA)
稀疏正则化器和剪枝
- 同时学习权重和连接以实现高效神经网络。(宋涵, 斯坦福大学)
- 深度压缩, EIE。(宋涵, 斯坦福大学)
- 动态网络手术以实现高效DNNs。(英特尔)
- 通过剪枝压缩神经机器翻译模型。(斯坦福大学)
- 使用低精度和稀疏性加速深度卷积网络。(英特尔)
- 使用直接稀疏卷积和引导剪枝实现更快的CNNs。(英特尔)
- 探索循环神经网络中的稀疏性。(百度研究院)
- 剪枝卷积神经网络以实现资源高效推理。(NVIDIA)
- 剪枝滤波器以实现高效ConvNets。(马里兰大学 + NEC美国实验室)
- 用于神经网络压缩的软权重共享。(阿姆斯特丹大学, reddit讨论)
- 稀疏连接的神经网络:实现深度神经网络的高效VLSI实现。(麦吉尔大学)
- 使用密度-多样性惩罚训练压缩的全连接网络。(华盛顿大学)
- 贝叶斯压缩
- 循环神经网络的贝叶斯稀疏化
- 深度学习的贝叶斯压缩
- 通过对数正态乘性噪声进行结构化贝叶斯剪枝
张量分解
- 压缩深度卷积神经网络以实现快速和低功耗移动应用。(三星等)
- 学习紧凑的循环神经网络。(南加州大学 + Google)
- 神经网络张量化。(斯科尔科沃科技学院等)
- 终极张量化:同时压缩卷积和全连接层。(莫斯科国立大学等)
- 非线性卷积网络的高效和准确近似。(@CVPR2015)
- 利用卷积网络内的线性结构进行高效评估。(纽约大学等)
- 具有低秩正则化的卷积神经网络。(普林斯顿大学等)
- 使用张量学习:为什么是现在以及如何学习?(NIPS'16张量学习研讨会)
条件 (自适应) 计算
- 循环神经网络的自适应计算时间。(谷歌 DeepMind@Alex Graves)
- 循环神经网络中的可变计算。(纽约大学 + Facebook AI研究院)
- 残差网络的空间自适应计算时间。(github链接, 谷歌等)
- 分层多尺度循环神经网络。(蒙特利尔)
- 巨大神经网络_稀疏门控专家混合层。(谷歌大脑等)
- 用于快速测试时预测的自适应神经网络。(波士顿大学等)
- 动态深度神经网络_通过选择性执行优化准确性-效率权衡。(密歇根大学)
- 通过随机神经元估计或传播梯度以进行条件计算。(@Yoshua Bengio)
- 用于高效预测的多尺度密集卷积网络。(康奈尔大学等)
硬件加速器
基准测试和平台分析
- Fathom: 现代深度学习方法的参考工作负载。(哈佛大学)
- DeepBench: 用于深度学习操作基准测试的开源工具。(svail.github.io-百度)
- BENCHIP: 智能处理器基准测试。
- DAWNBench: 端到端深度学习基准测试和竞赛。(斯坦福)
- MLPerf: 一个广泛的机器学习基准测试套件,用于测量机器学习软件框架、硬件加速器和云平台的性能。
循环神经网络
- 基于FPGA的低功耗语音识别与循环神经网络。(首尔国立大学)
- 在分析服务器中加速循环神经网络:FPGA、CPU、GPU和ASIC的比较。(英特尔)
- ESE: 基于FPGA的高效语音识别引擎,采用压缩LSTM。(FPGA 2017最佳论文奖)
- DNPU: 8.1TOPS/W可重构CNN-RNN处理器,用于通用深度神经网络。(KAIST, ISSCC 2017)
- 用于光学字符识别的双向长短期记忆神经网络的硬件架构。(凯泽斯劳滕大学等)
- 长短期记忆神经网络在自动语音识别中的高效硬件映射。(硕士论文@Georgios N. Evangelopoulos)
- FPGA上循环神经网络的硬件加速器。(普渡大学, ISCAS 2017)
- 加速循环神经网络:内存高效方法。(南京大学)
- 用于认知智能应用的LSTM基循环神经网络并行化的快速低功耗架构。
- 使用动态自适应近似计算的RNN能效可重构架构。
- 用于近传感器循环神经网络推理的可系统扩展加速器。
- 用于深度学习应用的高能效可重构混合神经网络处理器
- E-PUR: 循环神经网络的高能效处理单元
- C-LSTM: 在FPGA上使用结构化压缩技术实现高效LSTM (FPGA 2018, 北京大学, 雪城大学, 纽约城市大学)
- DeltaRNN: 节能高效的循环神经网络加速器。(FPGA 2018, 苏黎世联邦理工学院, BenevolentAI)
- 面向移动GPU的内存友好型长短期记忆网络(LSTM) (MACRO 2018)
- E-RNN: FPGA中高效循环神经网络的设计优化 (HPCA 2019)
卷积神经网络
会议论文
NIPS 2016
- 动态网络手术以实现高效DNN。(英特尔中国实验室)
- 内存高效的随时间反向传播。(谷歌DeepMind)
- 穿孔CNN:通过消除冗余卷积来加速。(莫斯科国立大学等)
- 在深度神经网络中学习结构化稀疏性。(匹兹堡大学)
- LightRNN: 内存和计算高效的循环神经网络。(南京大学 + 微软研究院)
ICASSP 2017
- lognet: 使用对数计算的节能神经网络。(斯坦福大学)
- 深度和循环神经网络的扩展低秩加对角线自适应。(微软)
- 使用自适应步长再训练的深度神经网络定点优化。(首尔国立大学)
- 在下一代英特尔客户端平台上实现高效、低功耗深度神经网络(演示)。(英特尔)
- 小型highway网络的知识蒸馏。(TTI-芝加哥等)
- 使用组套索正则化自动选择深度神经网络节点。(同志社大学等)
- 使用低精度和稀疏性加速深度卷积网络。(英特尔实验室)
CVPR 2017
- 使用能源感知剪枝设计节能卷积神经网络。(麻省理工学院)
- 网络素描:利用深度CNN中的二进制结构。(英特尔中国实验室 + 清华大学)
- 残差网络的空间自适应计算时间。(谷歌等)
- 紧凑型DNN:接近GoogLeNet级别的分类和域适应准确性。(匹兹堡大学等)
ICML 2017
- 多核上的深度张量卷积。(麻省理工学院)
- 超越滤波器:便携式深度模型的紧凑特征图。(北京大学 + 悉尼大学)
- 深度神经网络的组合群体和独占稀疏性。(UNIST)
- Delta网络用于优化循环网络计算。(神经信息学研究所等)
- MEC: 深度神经网络的内存高效卷积。(IBM研究院)
- 决定如何决策:人工神经网络中的动态路由。(加州理工学院)
- 使用端到端低精度训练模型:可行、不可行以及深度学习的一点点。(苏黎世联邦理工学院等)
- 深度神经网络数值精度的分析保证。(伊利诺伊大学厄巴纳-香槟分校)
- 变分 Dropout 稀疏化深度神经网络。(斯科尔科沃理工学院等)
- 用于快速测试时预测的自适应神经网络。(波士顿大学等)
- 低位移秩权重矩阵神经网络的理论性质。(纽约城市大学等)
ICCV 2017
- 用于加速非常深的神经网络的通道剪枝。(西安交通大学 + 旷视科技)
- ThiNet:一种用于深度神经网络压缩的滤波器级剪枝方法。(南京大学等)
- 通过网络瘦身学习高效卷积网络。(英特尔中国实验室等)
- 通过高阶残差量化实现性能有保证的网络加速。(上海交通大学 + 北京大学)
- 协调滤波器以加速深度神经网络。(匹兹堡大学 + 杜克大学等,github链接)
NIPS 2017
- 面向精确二值卷积神经网络。(大疆创新)
- 用于端到端学习可压缩表示的软到硬向量量化。(苏黎世联邦理工学院)
- TernGrad:三值梯度以减少分布式深度学习中的通信。(杜克大学等,github链接)
- Flexpoint:用于高效训练深度神经网络的自适应数值格式。(英特尔)
- 深度学习的贝叶斯压缩。(阿姆斯特丹大学等)
- 通过层级最优脑外科学习剪枝深度神经网络。(南洋理工大学)
- 训练量化网络:更深入的理解。(马里兰大学)
- 通过对数正态乘性噪声进行结构化贝叶斯剪枝。(Yandex等)
- 运行时神经网络剪枝。(清华大学)
- 可逆残差网络:无需存储激活值的反向传播。(多伦多大学,github链接)
- 深度网络的压缩感知训练。(丰田研究所 + 洛桑联邦理工学院)
ICLR 2018
- 口头报告
- 深度神经网络中的整数训练和推理。(清华大学)
- 海报
- 通过L0正则化学习稀疏神经网络
- 学习长短期记忆内在稀疏结构
- 变分网络量化
- 循环神经网络的交替多位量化
- 混合精度训练
- 用于资源高效图像分类的多尺度密集网络
- 高效稀疏-Winograd卷积神经网络
- 通过深度组合编码学习压缩词嵌入
- 使用整数运算的卷积神经网络混合精度训练
- 神经网络的自适应量化
- Espresso:二值深度神经网络的高效正向传播
- WRPN:宽幅降低精度网络
- 深度重连接:训练非常稀疏的深度网络
- 深度网络的损失感知权重量化
- 学习共享:深度学习中的同步参数绑定和稀疏化
- 深度梯度压缩:减少分布式训练的通信带宽
- 通过在线蒸馏进行大规模分布式神经网络训练
- 使用局部重参数化技巧学习离散权重
- 重新思考卷积层通道剪枝中较小范数信息量较少的假设
- 使用单比特权重训练宽残差网络以便部署
- 二值神经网络的高维几何
- 研讨会
- 剪还是不剪:探索剪枝对模型压缩的效果
CVPR 2018
- Shift:空间卷积的零FLOP、零参数替代方案
- ShuffleNet:一种用于移动设备的极其高效的卷积神经网络
- 神经网络的量化和训练,实现高效的仅整数算术推理
- BlockDrop:残差网络中的动态推理路径
- SYQ:学习对称量化以实现高效深度神经网络
- 低位神经网络的两步量化
- 面向有效低位卷积神经网络
- 低位深度神经网络的显式损失-误差感知量化
- CLIP-Q:通过并行剪枝-量化学习深度网络压缩
- 神经网络剪枝的"学习-压缩"算法
- 宽压缩:张量环网络
- NestedNet:学习深度神经网络中的嵌套稀疏结构
- 交错结构化稀疏卷积神经网络
- NISP:使用神经元重要性分数传播剪枝网络
- 使用块项张量分解学习紧凑循环神经网络
- HydraNets:用于高效推理的专门动态架构
- 使用预算超级网络学习时间/内存高效的深度架构
ECCV 2018
- ShuffleNet V2:高效CNN架构设计的实用指南
- 使用交替方向乘子法的系统DNN权重剪枝框架
- 从有限的未标记数据中学习压缩
- AMC:移动设备上模型压缩和加速的自动机器学习
- 通过半二值分解训练二值权重网络
- 聚类卷积核以压缩深度神经网络
- Bi-Real网络:通过改进的表示能力和高级训练算法提高1比特CNN的性能
- 深度神经网络的数据驱动稀疏结构选择
- 基于核心集的神经网络压缩
- 具有自适应推理图的卷积网络
- 神经网络训练和推理的值感知量化
- LQ-Nets:用于高度准确和紧凑深度神经网络的学习量化
- 深度扩展器网络:基于图论的高效深度网络
- 通过滤波器组近似实现极端网络压缩
- 约束感知深度神经网络压缩
ICML 2018
- 使用变分信息瓶颈压缩神经网络
- DCFNet:具有分解卷积滤波器的深度神经网络
- 深度k均值:通过更难的聚类分配重新训练和参数共享来压缩深度卷积
- 误差补偿量化SGD及其在大规模分布式优化中的应用
- 高性能零内存开销直接卷积
- Kronecker循环单元
- 使用正则化学习紧凑神经网络
- StrassenNets:具有乘法预算的深度学习
- Weightless:用于深度神经网络压缩的无损权重编码
- WSNet:通过权重采样实现紧凑高效网络
NIPS 2018
- 研讨会
- 神经网络8位训练的可扩展方法
- 卷积神经网络的频域动态剪枝
- 具有记忆的稀疏化SGD
- 使用8位浮点数训练深度神经网络
- KDGAN:使用生成对抗网络进行知识蒸馏
- 通过即时原生集成进行知识蒸馏
- 用于资源受限设备上高效顺序数据分类的多实例学习
- Moonshine:使用低成本卷积进行蒸馏
- HitNet:混合三元循环神经网络
- FastGRNN:快速、准确、稳定且仅需几KB的门控循环神经网络
- 使用混合块浮点训练深度神经网络
- 可逆循环神经网络
- 规范化很重要:深度网络中高效准确的规范化方案
- 卷积神经网络的突触强度
- Tetris:匹配巨大不规则稀疏性
- 通过敏感度驱动的正则化学习稀疏神经网络
- Pelee:移动设备上的实时目标检测系统
- 学习通用过滤器以实现高效的卷积神经网络
- 通过层级神经元共享进行多任务压缩
- 分布式深度学习中稀疏和量化通信的线性加速分析
- GradiVeQ:分布式CNN训练中带宽高效梯度聚合的向量量化
- ATOMO:通过原子稀疏化实现通信高效学习
- 分布式优化中的梯度稀疏化
ICLR 2019
- 海报:
- SNIP:基于连接敏感度的单次网络剪枝
- 重新思考网络剪枝的价值
- ImageNet规模下的非空泛化界限:PAC-贝叶斯压缩方法
- 动态通道剪枝:特征增强与抑制
- 深度神经网络的能量受限压缩:通过加权稀疏投影和层输入掩蔽
- 可调整宽度的神经网络
- RotDCF:旋转等变深度网络的卷积滤波器分解
- 高效深度学习的动态稀疏图
- Big-Little Net:视觉和语音识别的高效多尺度特征表示
- 用于压缩神经网络的数据相关核心集及其在泛化界限中的应用
- 学习循环二值/三值权重
- 双重维特比:深度神经网络高压缩比和快速片上重建的权重编码
- 离散化神经网络的松弛量化
- 用于数据压缩的整数网络与潜变量模型
- 最小随机码学习:从压缩模型参数中获取比特
- 二值神经网络优化的系统研究
- 量化模型分析
- 口头报告:
- 彩票假说:寻找稀疏、可训练的神经网络
CVPR 2019
- 图像分类所需的只是几次移位:设计高效的卷积神经网络
- 通过生成对抗学习实现结构化CNN剪枝的最优化
- T-Net:使用单个高阶张量参数化全卷积网络
- 用于加速深度神经网络的全可学习分组卷积
- 其他待添加