#量化压缩

Awesome-LLM-Inference学习资料汇总 - 大语言模型推理优化必备参考

2 个月前

2 个月前

3 个月前

3 个月前

相关项目

Awesome-LLM-Inference

Awesome-LLM-Inference项目提供了一系列关于大型语言模型推理的研究论文和配套代码，涵盖了从基础框架到先进技术的全面资源，旨在帮助研究人员和开发者提高推理效率和性能。提供了全面的信息和技术支持，用于研究和开发高性能的大型语言模型。

Llama-3.2-11B-Vision-Instruct-FP8-dynamic

基于Meta-Llama-3.2架构的视觉语言模型，通过FP8动态量化技术实现模型压缩，在保持原有性能的同时将显存需求降低50%。模型支持图文输入和多语言输出，可通过vLLM实现快速部署，提供OpenAI兼容接口，适合商业场景应用。

Luna-AI-Llama2-Uncensored-GGUF

这是Tap-M开发的Luna AI Llama2 Uncensored模型的GGUF量化版本。项目提供了2-8比特不同量化级别的模型文件,支持CPU和GPU推理,可与llama.cpp及主流UI框架配合使用。模型基于cc-by-sa-4.0和Meta Llama 2双重许可协议发布。

投诉举报邮箱: service@vectorlightyear.com