TinyLlama-1.1B量化推理解决方案
Mixtral模型的多平台兼容量化文件
通过低比特量化方法优化变换器模型性能
量化ONNX模型增强句子编码效率和性能
Meta-Llama-3.1的FP8量化方法实现高效部署
多语言开源大模型的精简量化版本
使用llama.cpp实现高效文本生成
采用多解码头技术的LLM加速框架
高性能GGUF格式多模态模型转换与部署指南
INT4量化版提升多语言对话效率
集成通用与编程能力的先进语言模型
Mixtral-8x7B多语言推理模型的GPTQ量化版本
Llama 3.1 70B指令模型INT4量化版 多语言对话优化
高性能4比特量化优化版本
多语言指令微调大型语言模型
Meta-Llama-3.1-8B-Instruct模型的INT4量化版本
Llama 3模型的GGUF格式优化版本
开源大语言模型支持32K上下文窗口的指令微调版本
提高训练和推理速度的先进文本到语音转换系统
思维缓冲技术提升大语言模型推理效能
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号