LBANN:利弗莫尔大型人工神经网络工具包
利弗莫尔大型人工神经网络工具包(LBANN)是一个开源的、以高性能计算为中心的深度学习训练框架,经过优化可以组合多层并行性。
LBANN通过领域分解提供模型并行加速,以优化网络训练的强扩展性。它还允许将模型并行与数据并行和集成训练方法相结合,用于使用海量数据训练大型神经网络。LBANN能够利用紧密耦合的加速器、低延迟高带宽网络和高带宽并行文件系统。
除了传统的监督学习外,LBANN还支持最先进的训练算法,如无监督、自监督和对抗性(GAN)训练方法。它还支持通过时间反向传播(BPTT)训练的循环神经网络、迁移学习以及多模型和集成训练方法。
构建LBANN
LBANN用户安装LBANN的首选方法是使用Spack。在进行一些系统配置后,安装过程应该像下面这样简单:
spack install lbann
有关构建和安装LBANN的更详细说明,请参阅LBANN主要文档。
运行LBANN
运行LBANN的基本模板是:
<mpi-launcher> <mpi-options> \
lbann <lbann-options> \
--model=model.prototext \
--optimizer=opt.prototext \
--reader=data_reader.prototext
在使用GPGPU加速器时,用户应该注意LBANN针对每个MPI进程分配一个GPU的情况进行了优化。在选择MPI启动器的参数时应该牢记这一点。
有关运行LBANN的更多详细信息,请参阅此处的文档。
出版物
出版物、演示和海报列表可在此处查看。
报告问题
可以在Github问题追踪器上提出问题、疑问和Bug。