#推理

TinyLlama-1.1B-Chat-v1.0-marlin - TinyLlama-1.1B量化推理解决方案
HuggingfaceTinyLlama-1.1B-Chat-v1.0量化推理开源项目基于模型模型Neural MagicGithub
本项目提供了一种以TinyLlama-1.1B为基础的量化聊天模型,运用GPTQ技术实现内存优化与推理加速,支持高效的4位推理。借助nm-vllm引擎,用户能快速实现部署,并可通过Python管道进行本地推理。详细的量化与Marlin格式转换流程保障了模型的高效表现。此外,Neural Magic的Slack社区欢迎加入以获取支持和交流更多关于神经网络及AI的资讯。
MiniCPM-V-2_6-gguf - 高性能GGUF格式多模态模型转换与部署指南
GithubMiniCPM-V模型转换Huggingface多模态开源项目模型量化推理
MiniCPM-V-2.6是一个支持GGUF格式转换的多模态模型项目。项目展示了PyTorch模型到GGUF格式的转换流程,实现F16和INT4量化,并在Linux及Mac平台实现本地部署。项目提供完整的模型转换、构建和推理步骤,方便开发者进行多模态模型的本地化部署。
medusa-vicuna-7b-v1.3 - 采用多解码头技术的LLM加速框架
多头解码深度学习加速推理HuggingfaceGithub开源项目模型Medusa
Medusa是一个通过多解码头技术加速LLM生成的开源框架,支持7B、13B和33B模型权重。提供便捷的pip安装和源码构建选项,允许自定义模型格式加载。支持单GPU推理,未来将集成更多推理框架,开放社区贡献。
Llama-3.2-3B-Overthinker-Q8_0-GGUF - 使用llama.cpp实现高效文本生成
Lyte/Llama-3.2-3B-Overthinker推理LLAMA.CPP模型Github开源项目模型转换文本生成Huggingface
Llama-3.2-3B-Overthinker-Q8_0-GGUF模型通过llama.cpp转换为GGUF格式,适用于Mac和Linux。支持CLI和服务器模式的推理,操作流程包括从GitHub克隆到构建和运行,为开发者提供详尽指导。支持多种文本生成需求,并结合硬件加速以优化性能。
Ministral-8B-Instruct-2410-GGUF - 多语言开源大模型的精简量化版本
llama.cpp量化开源项目推理模型GithubHuggingfaceMistral大型语言模型
本项目提供Mistral AI的Ministral-8B-Instruct-2410模型的多种量化版本。使用llama.cpp进行量化,包含从16GB的F16全精度版本到4.45GB的IQ4_XS版本,适合不同硬件和性能需求。量化模型采用imatrix选项和特定数据集生成,可在LM Studio运行。项目详细介绍了各版本的文件大小、特点及模型提示格式,方便用户选择合适的版本。
Meta-Llama-3.1-70B-Instruct-FP8-KV - Meta-Llama-3.1的FP8量化方法实现高效部署
HuggingfaceFP8量化推理Quark开源项目模型GithubMeta-Llama-3.1-70B-Instruct
项目使用Quark对Meta-Llama-3.1模型进行FP8量化,优化了线性层(不含lm_head)的权重和激活过程。支持用户在单或多GPU平台上部署并在vLLM兼容平台上高效运行。尽管伪量化评估结果可能与实际推理精确度略有不同,但仍提供关键指标,助力模型开发与优化。通过FP8对称模式的应用,模型性能得到提升,并提供了准确性的参考标准,为后续模型开发提供支持。