#FP16xINT4

Marlin入门学习资料 - 高性能LLM推理内核

2024年09月10日

Marlin 高效推理 FP16xINT4 CUDA NVIDIA GPU Github 开源项目

2024年09月10日

Marlin固件：开源3D打印机驱动程序的革新之作

2024年08月30日

Marlin 高效推理 FP16xINT4 CUDA NVIDIA GPU Github 开源项目

2024年08月30日

相关项目

marlin

Marlin是一款专为LLM推理设计的FP16xINT4优化内核，可实现接近4倍的速度提升，并支持16-32个token的batchsize。通过高效利用GPU资源，如全局内存、L2缓存、共享内存和张量核心，Marlin克服了现代GPU的FLOP和字节比率挑战。多种优化技术包括异步权重加载和双缓冲共享内存加载，确保性能最大化。该项目适用于CUDA 11.8及以上版本，支持NVIDIA Ampere或Ada架构的GPU，并与torch 2.0.0和numpy兼容。在各种基准测试中，Marlin展示了卓越的性能，尤其在持久计算和大batchsize处理方面表现出色。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com