#模型整合

Mythalion-13B-AWQ - 利用高效的低比特量化提升Transformer推理速度

Huggingface文本生成Mythalion 13B量化开源项目模型模型整合Github伪人AI

该项目提供高效的AWQ模型文件，支持4比特量化在多用户环境中实现快速Transformer推理。虽然未量化模型的整体吞吐量更高，但通过使用更小的GPU，AWQ模型显著降低了部署成本，例如仅需1台48GB GPU即可运行70B模型。该模型适合需要高吞吐量并行推理的场景，用户可借助vLLM或AutoAWQ轻松调用以降低成本并简化部署。

speechless-zephyr-code-functionary-7b - 灵活集成与动态推理的多LoRAs模型

模型整合Github开源项目多LoRAs代码增强自然语言处理Huggingfacespeechless-zephyr-code-functionary-7b模型

此项目通过结合多种LoRA模块，介绍了一种创建多功能模型的新方法。使用从Mistral-7B-v0.1衍生的LoRA模块，该项目能够静态或动态整合模块来支持多种功能，比如无审查内容和代码增强功能。利用无梯度路由器，可自动组装LoRA模块，仅需少量推理步骤即可解决未见过的任务，并在多个基准测试中表现出色。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号