#模型优化

server - 开源AI推理服务,兼容多种深度学习和机器学习框架
Triton Inference ServerAI推理深度学习框架NVIDIA AI Enterprise模型优化Github开源项目
Triton Inference Server是一款开源推理服务软件,支持TensorRT、TensorFlow、PyTorch等多种深度学习和机器学习框架。它优化了云端、数据中心、边缘和嵌入式设备的推理性能,适用于NVIDIA GPU、x86和ARM CPU,以及AWS Inferentia。主要功能包括动态批处理、模型流水线、HTTP/REST和gRPC协议支持等。通过Triton,用户可以轻松部署和优化AI模型,提升推理效率。
Paddle-Lite - 轻量级且高性能的深度学习推理框架
Paddle Lite深度学习高性能推理模型优化多平台支持Github开源项目
Paddle Lite 是为移动端、嵌入式和边缘设备设计的高性能深度学习推理框架。支持多种硬件平台和操作系统,提供丰富的优化工具和多语言 API,便于快速部署和执行推理任务。通过量化和子图融合等策略,Paddle Lite 实现了轻量化和高性能,并已广泛应用于百度和其他企业。用户可以通过简单步骤完成模型优化和部署,并快速上手示例。
argilla - AI数据集管理与优化工具
Argilla数据质量模型优化AI工程师数据集Github开源项目
Argilla是一款为AI工程师和领域专家设计的数据集管理工具,旨在通过高效的数据管理和标注流程提升AI项目的数据质量和模型效果。Argilla支持文本分类、命名实体识别和多模态模型等多种AI项目的数据收集和反馈,帮助用户快速迭代和优化数据与模型。该工具提供开源社区支持,用户可以参与并共享开源数据集和模型。通过与Hugging Face Spaces的集成,用户可以轻松部署和使用Argilla,提高AI项目的整体效率和质量。
FLAML - 高效的Python库,用于自动化机器学习和模型调优
FLAMLAutoML机器学习模型优化PythonGithub开源项目
FLAML是一款轻量级且高效的Python库,旨在简化大语言模型和机器学习模型的自动化工作流程。通过多智能体对话框架和经济高效的自动调优功能,它帮助用户找到优质模型并优化GPT-X工作流。FLAML支持代码优先的AutoML和调优,能处理大规模搜索空间和复杂约束,广泛适用于分类、回归等任务。适用于Python 3.8及以上版本,并提供详细文档和多种扩展选项,满足用户的不同需求。
TensorFlowTTS - TensorFlow 2驱动的多模型实时语音合成系统
TensorFlowTTS语音合成实时处理多语言支持模型优化Github开源项目
探索TensorFlowTTS:快速、灵活的多语言语音合成平台,采用最新技术如Tacotron-2、MelGAN,可部署于移动设备,助力全球开发者创造多语种语音应用。
LLM-VM - 集成最新LLM和工具的开源AGI服务器
Anarchy LabsLLM-VM人工智能开源模型优化Github开源项目
Anarchy LLM-VM是一款优化的开源AGI服务器,集成最新LLM和工具,提供高效推理和任务优化。支持本地运行,降低成本并提供灵活性。项目特色包括持久状态记忆、实时数据增强、负载均衡、API端点和Web操作界面,适用于各种架构,致力于透明高效的AGI开发。
natasha - 多功能俄语自然语言处理工具,支持词嵌入、句子分割、形态标注等
NatashaNLPRussian language自然语言处理模型优化Github开源项目
Natasha是一款用于解决俄语基础自然语言处理任务的工具,包括词标记、句子分割、词嵌入、形态标注、词形还原、短语规范化、句法解析、命名实体识别和事实提取。它在新闻领域的性能媲美或优于现有最佳模型。支持在CPU上运行,使用Numpy进行推理,注重模型体积、内存使用和性能。Natasha项目集成了多个库如Razdel、Navec、Slovnet和Yargy,提供统一的API,用户可在Python 3.7+环境中方便安装并快速上手使用。
sparseml - 神经网络优化工具,简化代码实现高效稀疏模型
SparseML神经网络模型优化稀疏化推理优化Github开源项目
SparseML是开源模型压缩工具包,使用剪枝、量化和蒸馏算法优化推理稀疏模型。可导出到ONNX,并与DeepSparse结合,在CPU上实现GPU级性能。适用于稀疏迁移学习和从零开始的稀疏化,兼容主流NLP和CV模型,如BERT、YOLOv5和ResNet-50,实现推理速度和模型大小的显著优化。
optimizer - 一个通过预包装的优化通道对ONNX模型进行优化的C++库
ONNX优化器模型优化命令行安装Github开源项目
ONNX提供了一个C++库,通过预包装的优化通道对ONNX模型进行优化。主要目标是促进各ONNX后端实现共享工作,并支持多种直接在ONNX图上实现的优化。用户可以通过简单的函数调用使用这些通道,或添加新的优化通道。安装方式包括通过PyPI或从源代码构建。
sparsify - 机器学习模型推理优化解决方案
SparsifyNeural Magic模型优化深度学习推理加速Github开源项目
Sparsify使用先进的剪枝、量化和蒸馏算法,在加速推理的同时保持模型精度。该工具由两部分组成:Sparsify Cloud,提供实验创建、管理和结果比较的在线平台;Sparsify CLI/API,作为Python包和GitHub库,支持本地实验运行与云端同步。当前版本正逐步转向大语言模型优化。
Windows-Machine-Learning - 低延迟的机器学习推理API,适用于各种应用
Windows Machine LearningONNX Runtime机器学习模型优化工具Github开源项目
Windows Machine Learning通过ONNX Runtime和DirectML提供高效低延迟的机器学习推理API,适用于框架、游戏等实时应用。项目还包含多种模型转换和优化工具,示例以及开发者工具,帮助开发者在Windows应用中轻松实现机器学习。了解更多关于模型样本、高级场景和开发者工具的信息,并访问详细的教程和指南。
modded-nanogpt - 基于PyTorch的高效GPT-2训练器变体
NanoGPTPyTorchGPT-2训练效率模型优化Github开源项目
Modded-NanoGPT是一个基于Andrej Karpathy的llm.c项目的GPT-2训练器变体。该项目通过引入旋转嵌入等现代技术,将训练效率提高一倍,仅需5B tokens即可达到与原版相同的验证损失。代码简化至446行,实现了124M参数的transformer模型。在Fineweb验证集上,模型达到3.2818的验证损失。通过架构调整和超参数优化,该项目在保持性能的同时显著提升了训练速度。
Awesome-Deep-Neural-Network-Compression - 深度神经网络压缩技术资源库
深度神经网络压缩量化剪枝知识蒸馏模型优化NASGithub开源项目
该项目汇集了深度神经网络压缩的综合资源,包括量化、剪枝和蒸馏等技术的论文、总结和代码。涵盖高效模型设计、神经架构搜索等相关主题,并提供按会议和年份分类的论文列表。项目还收录了主流压缩系统和工具链接,为深度学习模型压缩研究提供了全面的参考资料。
Olive - 硬件感知型AI模型优化开源工具
Olive模型优化硬件感知AI加速开源框架Github开源项目
Olive是一个开源的硬件感知型AI模型优化工具,整合了先进的模型压缩、优化和编译技术。它能根据特定模型和目标硬件自动选择最适合的优化方法,在保证精度和延迟的同时,为云端和边缘设备生成高效推理模型。Olive通过简化开发流程和统一优化框架,支持多种硬件平台,有效提升AI模型部署效率。
llm-compressor - 开源大型语言模型压缩优化库
LLM Compressor量化模型优化vllmHugging FaceGithub开源项目
llm-compressor是一个专注于大型语言模型优化和压缩的开源库。它提供全面的量化算法集,支持权重和激活量化,并与Hugging Face模型和仓库无缝集成。该项目采用safetensors文件格式,确保与vllm兼容,同时通过accelerate支持大规模模型处理。llm-compressor涵盖多种量化格式和算法,包括激活量化、混合精度和稀疏化技术,为模型优化提供灵活多样的选择。
efficientvit - EfficientViT多尺度线性注意力用于高分辨率密集预测
EfficientViT计算机视觉深度学习图像分割模型优化Github开源项目
EfficientViT是一种新型ViT模型,专注于高效处理高分辨率密集预测视觉任务。其核心是轻量级多尺度线性注意力模块,通过硬件友好操作实现全局感受野和多尺度学习。该项目提供图像分类、语义分割和SAM等应用的预训练模型,在性能和效率间达到平衡,适合GPU部署和TensorRT优化。
efficient-dl-systems - 从GPU架构到模型部署的全面课程
深度学习系统GPU架构分布式训练模型优化推理优化Github开源项目
本项目是一门全面的高效深度学习系统课程,内容涵盖GPU架构、CUDA编程、实验管理、分布式训练、大模型处理、模型部署及推理优化等核心主题。课程结合理论讲座和实践研讨,旨在培养学生掌握深度学习系统的效率优化技能。课程还提供多个实践作业和往年教学资料,适合希望深入了解深度学习系统效率提升的学习者。
nm-vllm - 基于vLLM的企业级大语言模型推理引擎
nm-vllmvLLMPyPIDocker模型优化Github开源项目
nm-vllm是Neural Magic维护的企业级大语言模型推理引擎,基于vLLM开发。支持PyPI安装和Docker部署,提供CUDA加速和稀疏化功能,可提高推理效率。项目在Hugging Face上提供多种优化模型,为大规模语言模型部署提供高效解决方案。
chat-dataset-baseline - 中文对话模型训练资源整合平台
中文对话模型AI训练数据集LLaMA-Factory模型优化Github开源项目
chat-dataset-baseline项目整合Hugging Face平台优质数据集,为中文对话模型训练提供全面资源。采用PDCA循环迭代,涵盖数据选择、模型训练、测试和优化。项目提供详细指南,适合数据科学家和AI爱好者快速上手,用于训练高质量中文基础模型,为特定行业应用打下基础。
generative-ai-on-aws - 在AWS平台上开发和部署生成式AI应用的全面指南
Generative AIAWS深度学习人工智能模型优化Github开源项目
这本由AWS专家编写的指南全面介绍了在AWS平台上开发和部署生成式AI应用的过程。内容涵盖从基础知识到高级技术,包括提示工程、大型语言模型、模型优化、微调技术、RLHF、RAG和多模态模型等。本书探讨了如何利用Amazon Bedrock等AWS服务构建先进的生成式AI解决方案,为开发者和企业提供了在AWS上实施生成式AI的实用知识。
OctoAI - 专业GenAI推理服务平台提供高效可靠解决方案
AI工具GenAIOctoAI模型优化AI推理企业级服务
OctoAI是专业的GenAI推理服务平台,提供高效可靠的生成式AI解决方案。支持最新优化模型和微调,可在SaaS或私有环境中构建应用。平台提供文本和媒体生成API,以及OctoStack部署选项。具有高达99.999%的运行时间,优化性能和成本,支持模型自定义。通过SOC 2 Type II和HIPAA认证,确保数据安全。
Tromero - AI优化平台助力企业提升模型性能与竞争力
AI工具人工智能企业平台数据处理模型优化安全合规
Tromero为企业提供AI优化解决方案,支持无缝数据导入和处理。通过先进技术,平台可提升模型性能5-15%,并提供自动数据标记和高质量数据集创建功能。支持超过100种顶级AI模型,包括OpenAI和Mistral等。平台注重企业级安全,提供灵活部署选项,助力企业在各种场景中高效应用AI技术,增强竞争力。
coreml-examples - CoreML演示应用集合展示苹果神经引擎优化技术
CoreML苹果神经引擎模型优化机器学习iOS开发Github开源项目
该仓库收录了多个为苹果神经引擎优化的CoreML演示应用,展示了先进机器学习模型在iOS设备上的应用。涵盖FastViT图像分类、Depth Anything V2单目深度估计和DETR语义分割等模型。这些实例不仅展示CoreML功能,还为开发者提供在iOS设备上部署复杂机器学习模型的参考。项目采用coremltools进行优化和测试,是iOS机器学习开发的重要学习资源。
Llama-2-Onnx - Llama 2模型的ONNX优化版本
Llama 2ONNX模型优化AI模型自然语言处理Github开源项目
此项目是Meta Llama 2模型的ONNX优化版本。提供7B和13B参数规模,支持float16和float32精度。包含命令行示例和Gradio聊天界面,方便用户使用。项目文档详细介绍了仓库克隆、子模块初始化和性能优化等内容。
wav2lip_288x288 - 改进版Wav2Lip 高分辨率唇形同步与先进算法集成
Wav2Lip唇形同步模型优化深度学习视频处理Github开源项目
wav2lip_288x288是Wav2Lip项目的改进版本,致力于提升唇形同步的质量和分辨率。该项目支持288x288至512x512的模型尺寸,整合了PRelu、LeakyRelu等先进技术,并采用SAM-UNet架构。项目提供详细的训练流程,包括Syncnet和wav2lip-Sam的训练步骤。目前正在开发基于DINet的全流程训练功能,涵盖使用DeepSpeech的Syncnet训练和DINet帧训练。这些优化旨在实现更精确、更高质量的唇形同步效果。
optimum-quanto - PyTorch模型量化框架 提升性能和效率
Optimum Quanto量化PyTorch机器学习模型优化Github开源项目
Optimum Quanto是专为Optimum设计的PyTorch量化框架。它支持eager模式、多设备部署,自动插入量化/反量化存根和操作,实现从浮点到动态/静态量化模型的无缝转换。支持多种精度的权重和激活量化,有效提升模型性能和内存效率。该框架为Hugging Face和原生PyTorch模型提供简便的量化流程。
hailo_model_zoo - 面向多AI任务的深度学习预训练模型集合
Hailo Model Zoo深度学习预训练模型模型优化Hailo硬件Github开源项目
Hailo模型库提供针对分类、检测和分割等AI任务的预训练深度学习模型。用户可测量模型的全精度和量化精度,并生成用于Hailo硬件加速的HEF文件。该库还包含自定义数据集重训练指南和特定用例模型。支持快速上手、性能评估及Hailo硬件部署,助力高效AI应用开发。
Idefics3-8B-Llama3 - 提升视觉文本处理能力的多模态模型
Huggingface模型优化多模态开源项目Idefics3模型文档理解视觉文本处理Github
Idefics3-8B是由Hugging Face开发的开放性多模态模型,支持处理任意图像和文本序列进行文本生成。该模型在OCR、文档理解和视觉推理方面有显著增强,适用于图像描述和视觉问答任务。Idefics3-8B主要通过监督微调进行训练,可能需要多次提示以获得完整回答。与Idefics2相比,Idefics3在文档理解能力上表现更为出色,并增加了视觉标记编码的多项改进和丰富的数据集支持。
DeepRec - 基于TensorFlow的推荐系统框架 支持万亿级训练和优化
DeepRec深度学习框架推荐系统分布式训练模型优化Github开源项目
DeepRec是一个基于TensorFlow的推荐系统深度学习框架。它支持万亿级样本和参数的分布式训练,提供嵌入变量、优化器等关键功能。该框架在CPU和GPU平台上进行了性能优化,包括运行时、算子和图级优化。DeepRec还支持增量检查点、分布式服务和在线学习等部署功能,为大规模推荐模型提供全面解决方案。
Phi-3-medium-128k-instruct-quantized.w8a16 - 优化为INT8的14亿参数开源模型,提升计算效率
vLLMGithubPhi-3-medium-128k-instruct文本生成开源项目量化模型优化Huggingface模型
Phi-3模型的量化版本,通过将权重量化为INT8,将参数位数从16减少至8,约减少50%的磁盘和GPU使用,仍保有高性能。专为英语商业与研究用设计,不适用于违法行为。支持在vLLM和Transformers中高效部署,平均分数74.04逼近未量化版本。在OpenLLM基准中展现优异准确性与恢复能力。
Mixtral-8x7B-v0.1 - 多语言预训练大语言模型 超越Llama 2 70B性能
模型优化Mixtral-8x7BHuggingface模型大语言模型稀疏混合专家Github开源项目Hugging Face
Mixtral-8x7B是一款预训练的生成式稀疏专家混合大语言模型,在多数基准测试中性能优于Llama 2 70B。该模型支持法语、意大利语、德语、西班牙语和英语等多语言处理。开发者可通过Hugging Face transformers库或vLLM部署使用,并可采用半精度、8位和4位量化等方法降低内存占用。作为基础模型,Mixtral-8x7B不含内置审核机制,使用时需注意。
FLUX.1-dev-Controlnet-Inpainting-Beta - FLUX.1-dev提供高分辨率的图像修复与细节优化
分辨率支持FLUX.1-dev开源项目图像生成模型模型优化InpaintingHuggingfaceGithub
FLUX.1-dev ControlNet模型显著提升图像修复与生成效果,支持1024x1024分辨率,增强细节与提示控制。兼容FLUX.1 Turbo Alpha,优化创建流程,适用ComfyUI工作流,通过灵活调节参数实现多样化生成效果,适合追求更高细节控制的用户。
Llama-3.1-Nemotron-70B-Instruct-HF-FP8-dynamic - 多语种量化优化模型,显著降低内存占用
开源项目Llama-3.1-Nemotron-70B-Instruct-HF-FP8-dynamic模型模型优化Huggingface文本生成多语言支持量化Github
通过将权重和激活量化为FP8格式,该项目优化了Llama-3.1-Nemotron模型,显著降低了GPU内存与磁盘的占用。模型适用于商业与研究,支持多语言开发和会话助手的构建。利用vLLM,可以实现高效部署并具有OpenAI兼容性。Llama-3.1-Nemotron-70B-Instruct-HF-FP8-dynamic在诸多测试中表现优良,在Arena-Hard评估中达99.41%的恢复率。
Qwen2-7B-Instruct-GGUF - 广泛基准测试中表现突出的大型语言模型
推理能力GithubQwen2-7B-Instruct开源项目多语言模型优化Huggingface预训练模型
Qwen2-7B-Instruct-GGUF是一款经过指导优化的开源大规模语言模型,在语言理解、生成和多语言支持等基准测试中表现优异,提供fp16及多种量化格式,兼容OpenAI API,并增强代码和数学推理功能。
suzume-llama-3-8B-multilingual-orpo-borda-half - 多语言性能优化,基于lightblue模型的ORPO改进
评估结果数据集开源项目模型GithubHuggingface多语言模型模型优化Suzume ORPO
该项目通过ORPO方法对lightblue基础模型进行微调,提升多种语言的自然语言处理能力。模型优化使用了lightblue/mitsu数据集的重要响应。在MT-Bench测试中,这些ORPO模型比基础模型在多个语言中表现更好,预计将来会有商用版本推出。
LDCC-SOLAR-10.7B - 基于SOLAR方法的深度学习模型,应用于数据通信与工程
SOLAR论文深度学习模型优化HuggingfaceLDCC-SOLAR-10.7BGithub开源项目模型硬件
项目详细描述了使用A100硬件和DeepSpeed、HuggingFace库训练的深度学习模型,通过SOLAR方法实现优化。建议使用特定版本的tokenizer文件进行模型精调,该模型适用于AI技术的多种应用场景。