#量化推理

intel-extension-for-transformers - 提升GenAI与LLM模型性能的先进工具包
Intel Extension for Transformers量化推理LLMGenAITransformer模型Github开源项目
Intel® Extension for Transformers是专为提升基于Transformer架构的GenAI/LLM模型而设计的先进工具包。本工具包支持多种平台,如Intel Gaudi2、CPU和GPU,并整合了Hugging Face transformers APIs与Intel® Neural Compressor,提供顺畅的模型压缩过程和多样化的优化选择。此外,工具包含可定制的NeuralChat聊天机器人框架,为用户带来高效的AI交互体验。
CodeGeeX2 - 多语言代码生成模型显著提升开发效率
CodeGeeX2代码生成AI编程助手多语言量化推理Github开源项目
CodeGeeX2是基于ChatGLM2架构的多语言代码生成模型,经600B代码数据预训练。支持超过100种编程语言,在多项指标上性能显著提升。模型具备代码补全、解释、翻译等功能,可显著提高开发效率。CodeGeeX2开放学术研究使用,商用需申请授权。
neural-chat-7b-v3-1 - 在英特尔Gaudi2上优化的mistralai 7B语言模型
模型微调Intel Gaudi 2模型Github开源项目数据集大语言模型量化推理Huggingface
neural-chat-7b-v3-1模型经过优化,利用mistralai/Mistral-7B-v0.1基础模型和DPO方法,适用于多种语言任务。结合Open-Orca/SlimOrca数据集,提升了ARC、HellaSwag与TruthfulQA等多项评估指标表现,并支持INT4、BF16等多种推理模式。非常适合高性能语言生成与处理应用,详细信息和使用指导可在GitHub和Hugging Face Leaderboard上查看。