PowerInfer: 消费级GPU上的高速大语言模型推理引擎

PowerInfer:消费级GPU上的高速大语言模型推理引擎

近年来,大语言模型(LLM)的快速发展为自然语言处理领域带来了革命性的变革。然而,这些庞大的模型通常需要强大的硬件资源才能高效运行,这限制了它们在个人设备上的应用。为了解决这一问题,来自上海交通大学的研究人员开发了PowerInfer,这是一个创新的LLM推理引擎,能够在配备单个消费级GPU的个人电脑上实现高速推理。

PowerInfer的核心设计理念

PowerInfer的核心设计理念是利用LLM推理中固有的高局部性。研究人员发现,LLM推理中的神经元激活呈现幂律分布的特征。这意味着有一小部分神经元(称为"热"神经元)在不同输入下都会被频繁激活,而大部分神经元(称为"冷"神经元)的激活则依赖于特定的输入。

基于这一洞察,PowerInfer设计了一个GPU-CPU混合推理引擎:

将频繁激活的"热"神经元预加载到GPU上,以实现快速访问。
将不常激活的"冷"神经元计算任务分配给CPU。

这种设计显著降低了GPU内存需求和CPU-GPU之间的数据传输,从而大幅提升了推理速度。

PowerInfer架构图

PowerInfer的关键技术

为了进一步优化推理性能,PowerInfer还集成了以下关键技术:

自适应预测器:动态预测神经元的激活情况,提高预加载的准确性。
神经元感知稀疏算子:针对稀疏激活模式优化计算。
异构计算:将粗粒度的矩阵计算分解为细粒度的"神经元簇",并根据不同硬件组件的特性动态调整这些簇的大小。
I/O-计算流水线:采用神经元缓存和细粒度神经元簇级流水线技术,最大化神经元加载和计算的重叠。

这些技术的结合使PowerInfer能够充分利用消费级硬件的潜力,实现高效的LLM推理。

性能评估

研究人员对PowerInfer进行了全面的性能评估。在配备单个NVIDIA RTX 4090 GPU的个人电脑上,PowerInfer在各种LLM(包括OPT-175B)上实现了平均13.20 tokens/s的令牌生成速率,峰值可达29.08 tokens/s。这一性能仅比顶级服务器级A100 GPU低18%,同时显著优于llama.cpp,速度提升最高可达11.69倍。

PowerInfer性能评估