#并行推理

distrifuser - 高效分布式并行推理助力高分辨率图像生成

DistriFusiondiffusion模型并行推理高分辨率GPU加速Github开源项目

DistriFusion是一种用于高分辨率扩散模型的分布式并行推理算法。该方法无需额外训练，通过多GPU协同工作加速推理过程，同时保持图像质量。其创新的补丁交互技术解决了传统方法的碎片化问题，在高分辨率图像生成任务中显著提升了性能。该项目已在CVPR 2024被评为亮点工作，并开源了相关代码。

mlx_parallm - 为Apple Silicon设备实现高效并行推理

MLX ParaLLMApple Silicon批处理KV缓存并行推理语言模型Github开源项目

MLX ParaLLM是一个为Apple Silicon设备开发的开源项目，利用MLX框架实现批处理KV缓存技术，从而提高并行推理效率。项目支持Meta-Llama、Phi-3和Gemma等多种模型，兼容量化和float16格式。通过batch_generate方法，MLX ParaLLM实现自动填充、提示模板格式化和多种采样策略，适用于大规模并行文本生成任务。

Mistral-7B-OpenOrca-AWQ - 高效4比特量化，实现多用户并发推理

OpenOrcaAWQ开源项目Mistral 7B模型Huggingface并行推理量化Github

项目提供OpenOrca的Mistral 7B模型的AWQ版本。AWQ是一种4比特的低比特量化方法，在Transformers推理中更快速，与GPTQ相比具有效率优势。AWQ支持在多用户环境中实现高效的并发推理，有助于使用更小的GPU进行部署，减少整体成本，尽管总体吞吐量仍略低于未量化模型。

相关文章

Article Cover

DistriFusion: 革新高分辨率扩散模型的分布式并行推理

Article Cover

MLX ParaLLM: 加速Apple Silicon上的大语言模型并行推理

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号