#模型整合
Mythalion-13B-AWQ - 利用高效的低比特量化提升Transformer推理速度
Huggingface文本生成Mythalion 13B量化开源项目模型模型整合Github伪人AI
该项目提供高效的AWQ模型文件,支持4比特量化在多用户环境中实现快速Transformer推理。虽然未量化模型的整体吞吐量更高,但通过使用更小的GPU,AWQ模型显著降低了部署成本,例如仅需1台48GB GPU即可运行70B模型。该模型适合需要高吞吐量并行推理的场景,用户可借助vLLM或AutoAWQ轻松调用以降低成本并简化部署。
speechless-zephyr-code-functionary-7b - 灵活集成与动态推理的多LoRAs模型
模型整合Github开源项目多LoRAs代码增强自然语言处理Huggingfacespeechless-zephyr-code-functionary-7b模型
此项目通过结合多种LoRA模块,介绍了一种创建多功能模型的新方法。使用从Mistral-7B-v0.1衍生的LoRA模块,该项目能够静态或动态整合模块来支持多种功能,比如无审查内容和代码增强功能。利用无梯度路由器,可自动组装LoRA模块,仅需少量推理步骤即可解决未见过的任务,并在多个基准测试中表现出色。