#GPTQ

text-generation-webui-colab - Colab平台上GPT模型的快速部署指南
Github开源项目VicunaLLaMAColabHuggingfaceGPTQ
本页面介绍如何在Colab平台上便捷部署多种GPT模型,包括vicuna、alpaca、llama等。用户可通过一键启动这些模型,适用于文本生成等应用。页面详细描述了每个模型的特性和使用方法,并提供对应的Colab链接,帮助用户高效进行实验和开发。
Wizard-Vicuna-7B-Uncensored-GPTQ - 支持多平台推理的高效GPTQ模型文件
Github开源项目人工智能助手量化模型模型HuggingfaceGPTQWizard Vicuna 7B未过滤
项目提供多样的GPTQ模型文件,支持多种推理配置和硬件平台需求。通过多种量化参数优化,提升推理质量及多样化VRAM使用。基础模型由Eric Hartford创建,专为NLP应用而设计,无需内容审核,用户可自由定制对齐方式,适用广泛领域的AI助手开发。
TinyLlama-1.1B-Chat-v1.0-GPTQ-Marlin-4bit - 量化版4-bit模型采用GPTQ提升效率及性能
Github开源项目模型量化HuggingfaceGPTQ配置TinyLlama4-bit
该项目使用AutoGPTQ以4-bit Marlin格式对大型语言模型进行量化,旨在提升性能与效率。量化配置涵盖4位量化、128组大小及0.01%阻尼比等技术细节,适用于寻求高效深度学习模型的用户,为复杂任务提供节省资源的方案。
MythoMax-L2-13B-GPTQ - 多样化GPTQ参数选择,满足多种硬件配置需求
Github开源项目量化模型角色扮演模型HuggingfaceGPTQTheBlokeMythoMax L2 13B
MythoMax L2 13B提供多种GPTQ量化配置,适用于多种硬件环境,提升模型性能。用户可选择不同分支进行下载,包括4-bit和8-bit版本,支持VRAM高效利用和精确推理。该项目兼容多种平台如ExLlama、AutoGPTQ和Huggingface的Text Generation Inference,为AI开发者提供灵活的工具和高效的解决方案。
WizardLM-7B-uncensored-GGUF - WizardLM-7B模型的GGUF格式转换与兼容性详解
Github开源项目LLM模型量化HuggingfaceGPTQWizardlm 7B Uncensored
本文档提供了对Wizardlm 7B Uncensored模型的GGUF格式的全面介绍,涵盖了与其兼容的各种客户端和库。GGUF是一种新推出的模型格式,取代了不再支持的GGML,支持多种量化方法,可用于GPU加速并适应多种平台。该项目由Eric Hartford设计,由TheBloke进行量化,包含不同比特级别的量化版本,以便用户依据需求选择适当的模型格式和质量。本文还详细说明了下载、安装和运行这些模型的多种方法,包括Python代码示例和LangChain集成演示,为开发者提供详尽指南。
speechless-code-mistral-7b-v1.0 - 全面支持多语言的代码生成与推理模型
Github开源项目Python文本生成模型模型优化HuggingfaceGPTQSpeechlessCoder
该项目展示了一款专注于代码生成和推理的模型,具备提升推理和规划能力的特点。其多种量化选项支持8位以下的CPU+GPU推断,使其在多种编程语言上均表现不俗。模型经过微调,覆盖了201,981个样本的数据集,包括编码、推理和规划样本,支持Alpaca指令格式。在HumanEval基准测试中通过率达51.22%,适用于多种编程语言的验证,如Python、Java、C++等,为编程助手和代码验证提供支持。
TinyLlama-1.1B-Chat-v1.0-GPTQ-4bit - 基于GPTQ量化技术的轻量级4位对话AI模型
Github开源项目机器学习量化模型模型模型压缩HuggingfaceGPTQTinyLlama
TinyLlama-1.1B-Chat-v1.0的4位量化版本,是一个轻量级对话AI模型。该项目采用AutoGPTQ技术进行量化,使用GPTQ方法将模型压缩至4位精度。量化配置包括128的组大小、0.01%的阻尼比例和对称量化等特性。这种优化显著降低了模型大小和内存占用,同时保持了模型性能,为资源受限的AI应用提供了高效解决方案。
Llama-3-8B-Instruct-GPTQ-4-Bit - 利用GPTQ量化优化模型性能的新方法
Github开源项目模型量化HuggingfaceGPTQMeta-Llama-3-8B-InstructApache Airflow数据协调
Astronomer的4比特量化模型通过GPTQ技术减少VRAM占用至不足6GB,比原始模型节省近10GB。此优化提高了延迟和吞吐量,即便在较便宜的Nvidia T4、K80或RTX 4070 GPU上也能实现高效性能。量化过程基于AutoGPTQ,并按照最佳实践进行,使用wikitext数据集以减小精度损失。此外,针对vLLM和oobabooga平台提供详细配置指南,以有效解决加载问题。
TinyLlama-1.1B-Chat-v0.3-GPTQ - TinyLlama 1.1B Chat GPTQ模型的多样化量化参数选择及使用指南
Github开源项目模型推理模型量化HuggingfaceGPTQTinyLlamaZhang Peiyuan
项目提供多种GPTQ模型参数,支持不同推理需求,参数包括位深、组大小与激活顺序,以适应多种硬件需求。由TheBloke进行模型量化,支持GPTQ客户端兼容性,校准数据集确保量化精度,如wikitext。提供灵活的分支信息,便于集成至文本生成工具或Python应用中。