OpenHermes-2.5-Mistral-7B-AWQ项目介绍
项目概述
OpenHermes-2.5-Mistral-7B-AWQ是一个基于Mistral模型的高效、准确、快速的量化模型,由Teknium团队创建。AWQ(Accuracy Weight Quantization)是一种低位比特量化方法,在保证模型质量的同时,显著提升了推理速度。相较于其他量化方法如GPTQ,AWQ可以在同等或更好的质量下,提供更快的推理速度。这一特性使得OpenHermes-2.5-Mistral-7B-AWQ在需要快速而可靠的语言生成任务中表现出色。
模型背景
OpenHermes-2.5-Mistral-7B是对OpenHermes 2模型的进一步微调,加入了更多的代码数据集。这一版本在包括TruthfulQA、AGIEval和GPT4All在内的多个非代码基准测试中表现出色。虽然在BigBench基准测试中的得分有所下降,但整体上仍然取得了显著的进步。此外,训练过程中引入的代码也提升了模型的某些代码评估指标。
模型特性
- 低位量化:AWQ支持4位量化,在减少计算资源需求的同时,保持模型的高精度。
- 广泛的数据集支持:训练过程中使用了大量的高质量公开数据集,并进行了严格的过滤和格式转换,以确保数据的准确性。
- 多样化应用:适用于多种应用场景,包括编程对话、高级餐谱生成,以及角色扮演对话等。
- 高效的计算资源使用:得益于Massed Compute提供的硬件支持,使得模型能够在更高效的硬件环境中进行推理。
使用方法
- 可以通过text-generation-webui进行轻松调用。
- 还支持通过vLLM和Hugging Face Text Generation Inference (TGI)进行多用户推理服务器搭建。
- 使用AutoAWQ包从Python代码中进行推理,需要安装
autoawq
包。
提供的文件
模型以sharded safetensors的形式发布,目前提供主分支的4位量化版本,序列长度为4096,大小约为4.15 GB。 这些模型经过测试,可以通过多种工具进行加载和使用,包括text-generation-webui、vLLM 和 Hugging Face TGI等。
兼容性
当前提供的模型文件经过测试,能够兼容Text-Generation-WebUI、vLLM 0.2.0及更高版本、Hugging Face TGI的1.1.0及更高版本,以及AutoAWQ 0.1.1及更高版本。
社区与支持
用户可以通过TheBloke AI的Discord服务器进行进一步的支持和讨论。此外,项目由多方赞助和支持,感谢GlaiveAI和a16z提供的计算资源,以及所有对本项目有贡献的数据集创作者和个人!
每一个热爱AI和大模型开发的人都可以通过TheBloke的Patreon或者Ko-Fi来赞助这一项目,从而支持更多类似的项目诞生。