推理工具大全:AI推理平台、应用和开源项目集合

TinyLlama-1.1B-Chat-v1.0-marlin

TinyLlama-1.1B-Chat-v1.0-marlin

HuggingfaceTinyLlama-1.1B-Chat-v1.0

TinyLlama-1.1B量化推理解决方案

Mixtral-8x7B-v0.1-GGUF

Mixtral-8x7B-v0.1-GGUF

Github量化

Mixtral模型的多平台兼容量化文件

meditron-7B-AWQ

meditron-7B-AWQ

医疗Github

通过低比特量化方法优化变换器模型性能

bge-large-en-v1.5-quant

bge-large-en-v1.5-quant

推理Github

量化ONNX模型增强句子编码效率和性能

Meta-Llama-3.1-70B-Instruct-FP8-KV

Meta-Llama-3.1-70B-Instruct-FP8-KV

HuggingfaceFP8

Meta-Llama-3.1的FP8量化方法实现高效部署

Ministral-8B-Instruct-2410-GGUF

Ministral-8B-Instruct-2410-GGUF

llama.cpp量化

多语言开源大模型的精简量化版本

Llama-3.2-3B-Overthinker-Q8_0-GGUF

Llama-3.2-3B-Overthinker-Q8_0-GGUF

Lyte/Llama-3.2-3B-Overthinker推理

使用llama.cpp实现高效文本生成

medusa-vicuna-7b-v1.3

medusa-vicuna-7b-v1.3

多头解码深度学习

采用多解码头技术的LLM加速框架

MiniCPM-V-2_6-gguf

MiniCPM-V-2_6-gguf

GithubMiniCPM-V

高性能GGUF格式多模态模型转换与部署指南

Meta-Llama-3.1-70B-Instruct-GPTQ-INT4

Meta-Llama-3.1-70B-Instruct-GPTQ-INT4

模型量化

INT4量化版提升多语言对话效率

DeepSeek-V2.5

DeepSeek-V2.5

Huggingface模型

集成通用与编程能力的先进语言模型

Mixtral-8x7B-Instruct-v0.1-GPTQ

Mixtral-8x7B-Instruct-v0.1-GPTQ

模型量化

Mixtral-8x7B多语言推理模型的GPTQ量化版本

Meta-Llama-3.1-70B-Instruct-AWQ-INT4

Meta-Llama-3.1-70B-Instruct-AWQ-INT4

AutoAWQHuggingface

Llama 3.1 70B指令模型INT4量化版 多语言对话优化

Meta-Llama-3.1-8B-Instruct-AWQ-INT4

Meta-Llama-3.1-8B-Instruct-AWQ-INT4

Meta-Llama-3.1AutoAWQ

高性能4比特量化优化版本

Mixtral-8x22B-Instruct-v0.1

Mixtral-8x22B-Instruct-v0.1

Huggingface模型

多语言指令微调大型语言模型

Meta-Llama-3.1-8B-Instruct-GPTQ-INT4

Meta-Llama-3.1-8B-Instruct-GPTQ-INT4

模型量化

Meta-Llama-3.1-8B-Instruct模型的INT4量化版本

Llama3-8B-1.58-100B-tokens-GGUF

Llama3-8B-1.58-100B-tokens-GGUF

模型Llama3

Llama 3模型的GGUF格式优化版本

Mistral-7B-Instruct-v0.2

Mistral-7B-Instruct-v0.2

Huggingface模型

开源大语言模型支持32K上下文窗口的指令微调版本

F5-TTS

F5-TTS

F5-TTSE2 TTS

提高训练和推理速度的先进文本到语音转换系统

buffer-of-thought-llm

buffer-of-thought-llm

Buffer of Thoughts大语言模型

思维缓冲技术提升大语言模型推理效能