#模型推理

llama.cpp - C/C++ 实现的 LLaMA 模型推理,支持多种硬件和系统
llama.cpp模型推理C/C++量化优化多模态模型Github开源项目热门
llama.cpp 提供了基于 C/C++ 的纯粹实现,支持包括 LLaMA 在内的多个模型的推理。专为多种硬件和操作系统优化,包括使用 ARM NEON、AVX 指令集和 Metal 框架的设备。此外,项目支持使用 NVIDIA GPU 的自定义 CUDA 核心,以及通过 HIP 支持 AMD GPU,为开发者在本地或云环境中实现高效、低延迟的大规模语言模型推理提供了强大的灵活性和可扩展性。
DeepSpeed - 一个深度学习优化库,专为大规模模型训练和推理设计
DeepSpeed大规模模型训练模型压缩分布式训练模型推理Github开源项目
DeepSpeed 是一个深度学习优化软件套件,专为大规模模型训练和推理设计,能显著优化系统性能和降低成本。它支持亿级至万亿级参数的高效管理,兼容各种计算环境,从资源受限的GPU系统到庞大的GPU集群。此外,DeepSpeed 在模型压缩和推理领域亦取得创新成就,提供极低的延迟和极高的处理速率。
Awesome-LLM-Inference - 一系列关于涵盖了从基础框架到先进技术的大型语言模型推理的研究论文和配套代码
Awesome-LLM-Inference模型训练模型推理算法优化量化压缩Github开源项目
Awesome-LLM-Inference项目提供了一系列关于大型语言模型推理的研究论文和配套代码,涵盖了从基础框架到先进技术的全面资源,旨在帮助研究人员和开发者提高推理效率和性能。提供了全面的信息和技术支持,用于研究和开发高性能的大型语言模型。
InferLLM - 轻量化语言模型推理框架,兼容多种模型格式和设备
InferLLMllama.cpp模型推理高效率多模型兼容Github开源项目
InferLLM 是一个高效简洁的语言模型推理框架,源于 llama.cpp 项目。主要特点包括结构简单、高性能、易于上手,并支持多模型格式。目前兼容 CPU 和 GPU,可优化 Arm、x86、CUDA 和 riscv-vector,并支持移动设备部署。InferLLM 引入了专有 KVstorage 类型以简化缓存和管理,适合多种应用场景。最新支持的模型包括 LLama-2-7B、ChatGLM、Alpaca 等。
llama2.mojo - 将llama2模型移植到Mojo中,通过Mojo的SIMD和矢量化原语,将Python性能提升近250倍
llama2.mojoMojoTinyLlama-1.1B-Chat-v0.2模型推理Python性能提升Github开源项目
llama2.mojo项目展示了如何将llama2模型移植到Mojo中,通过Mojo的SIMD和矢量化原语,将Python性能提升近250倍。在多线程推理中,Mojo版的性能超过了原始llama2.c的30%,在CPU上进行baby-llama推理时,性能超过了llama.cpp的20%。项目当前支持多个模型,包括stories和Tinyllama-1.1B-Chat。用户可以通过简单的命令行步骤或使用Docker在本地部署并运行该项目。
flux - 开源AI文本与图像转换框架
FLUXAI绘图模型推理Hugging FaceAPIGithub开源项目
Flux是Black Forest Labs开发的开源AI框架,用于文本到图像和图像到图像的转换。该项目提供pro、dev和schnell三个模型版本,满足不同性能需求。Flux支持本地部署、API调用及Diffusers集成,具有良好的灵活性。其代码简洁,接口直观,便于创意工作者和开发者使用。
Awesome-LLMOps - LLMOps工具和资源的精选列表
LLMOps大语言模型模型部署AI框架模型推理Github开源项目
Awesome-LLMOps列出了大语言模型运维(LLMOps)领域的优秀工具和资源。涵盖模型训练、部署、优化、服务、安全、搜索和代码AI等方面。该项目为开发者提供了构建和管理大规模语言模型应用的重要参考。
python-audio-separator - Python音频分离工具 轻松提取人声和乐器声轨
Audio Separator音频分离模型推理人声分离音轨分离Github开源项目
Audio Separator是一个开源的Python音频分离工具,能将音频文件分离为人声、乐器等多个音轨。支持WAV、MP3等常见格式,提供命令行和Python API接口。采用MDX-Net、VR Arch等AI模型,支持GPU加速,可快速分离高质量音轨。适用于卡拉OK制作和音乐后期处理等场景。
candle - Rust语言打造的高性能机器学习框架
Candle机器学习框架RustGPU支持模型推理Github开源项目
Candle是一款基于Rust开发的机器学习框架,专注于性能优化和易用性。它支持GPU加速计算,提供LLaMA、Stable Diffusion等多种AI模型示例。Candle采用类PyTorch的简洁语法,支持模型训练和自定义操作。该框架具有优化的CPU和CUDA后端,同时支持WebAssembly。作为一个轻量级但功能强大的框架,Candle适用于机器学习应用的快速开发和部署。
ortex - Elixir实现的ONNX模型并发推理框架
OrtexONNX Runtime机器学习模型Elixir模型推理Github开源项目
Ortex是基于ONNX Runtime的Elixir封装库,通过Nx.Serving实现ONNX模型的并发和分布式部署。该框架支持CUDA、TensorRT和Core ML等多种后端,能够高效加载和推理主流机器学习库导出的ONNX模型。Ortex还提供了便捷的存储型张量实现,为开发者提供了灵活且高效的机器学习模型部署方案。
chameleon - 多模态早期融合基础模型的开源实现
Meta Chameleon多模态模型AI研究模型推理可视化工具Github开源项目
Chameleon是Meta AI开发的多模态早期融合基础模型。项目提供GPU推理实现、浏览器端多模态输入输出查看工具和评估提示。开源内容包括模型代码、权重和数据集,支持多模态AI技术研究与应用。Chameleon能够在文本、图像等多种模态间实现高效融合和理解。
llama2.c - 轻量级Llama 2模型推理引擎的纯C语言实现
Llama 2C语言模型推理AI模型开源项目Github
llama2.c是一个用纯C语言实现的Llama 2模型推理引擎,仅需700行代码即可运行PyTorch训练的模型。项目设计简洁易用,提供从训练到推理的完整方案,支持Meta官方和自定义小型Llama 2模型。通过模型量化技术,llama2.c能够提升推理速度并缩小模型体积,为轻量级大语言模型部署提供了高效解决方案。
Fireworks AI - 高效推理平台加速生成式AI应用开发
AI工具Fireworks AI生成式AI模型推理AI基础设施模型微调
Fireworks AI是一个高效的生成式AI推理平台,为用户提供100多个开源模型的快速推理服务。该平台支持模型微调和部署,可构建复合AI系统。Fireworks AI以高速度、低成本和可扩展性见长,能够帮助企业快速将AI原型转化为生产系统。平台提供安全可靠的基础设施,适用于从初创公司到大型企业的各类用户,有助于充分发挥生成式AI的价值。
FasterTransformer4CodeFuse - 优化的CodeFuse模型推理引擎 高性能支持
FasterTransformerCodeFuse模型推理性能优化量化Github开源项目
FasterTransformer4CodeFuse是一个针对蚂蚁集团CodeFuse模型的优化推理引擎。它实现了Int8量化、流式输出和快速模型加载,同时改进了提示词处理并提供Python API。项目还支持多GPU tensor并行推理,并提供了详细的性能数据。相比原始FasterTransformer,该项目更适合需要高效推理CodeFuse模型的开发者和研究人员,能够显著提升性能和使用体验。对于寻求高效CodeFuse模型部署方案的团队,这是一个值得考虑的开源选择。
model_server - 高性能AI模型部署系统 支持多框架和多设备
OpenVINO Model Server模型推理微服务架构AI部署模型管理Github开源项目
OpenVINO Model Server是一个高性能AI模型部署系统,针对Intel架构优化。支持TensorFlow、PaddlePaddle和ONNX等多种框架,可在不同AI加速器上运行。系统通过gRPC和REST API提供服务,具备模型版本控制、动态输入和DAG调度等功能。适用于边缘计算和云环境,可提高资源利用率和推理效率。该系统还支持Python代码执行、gRPC流式传输和MediaPipe图形服务。OpenVINO Model Server适合微服务架构应用和Kubernetes环境部署,可实现水平和垂直推理扩展。
LLMSys-PaperList - 大语言模型系统论文精选 前沿研究与技术进展
LLM深度学习系统优化模型训练模型推理Github开源项目
该项目汇集大语言模型系统相关的学术论文、文章、教程和项目,涵盖预训练、推理服务、微调系统等多个方面。包括Megatron-LM、FlashAttention、vLLM等重要工作,还涉及LLM用于系统优化的研究。这一精选列表有助于研究者和开发者及时了解大语言模型系统领域的最新进展。
clip-ViT-B-32-vision - 图像分类与相似性搜索的简便工具
FastEmbedHuggingfaceONNX开源项目模型模型推理image-classificationGithub视觉相似搜索
clip-ViT-B-32模型的ONNX版本,支持图像分类和相似性搜索。利用FastEmbed库,用户能够快速处理图像嵌入,该模型在视觉任务中表现出色,适用于多种应用场景。
tiny-mixtral - 轻量级随机模型专为开发测试和CI/CD流程设计
模型推理模型人工智能mixtralGithubCI/CD测试Huggingface开源项目
tiny-mixtral是一个专为开发测试和CI/CD流程设计的轻量级随机模型。该项目未经训练,不适用于实际应用推理,但为开发者提供了快速验证系统集成和部署流程的工具。作为一个小型模型,tiny-mixtral在开发和测试环境中发挥着重要作用,特别是在不需要使用大型预训练模型的场景下。
Mistral-Small-Instruct-2409 - 22B参数高性能指令微调语言模型
Mistral-Small-Instruct-2409Huggingface开源项目模型推理模型AI聊天函数调用Github大语言模型
Mistral-Small-Instruct-2409是一款22B参数的指令微调语言模型,具备32768词汇量和32k序列长度。该模型支持聊天、指令跟随和函数调用等功能,可通过vLLM、mistral-inference或Hugging Face Transformers库进行使用。作为一个开源项目,Mistral-Small-Instruct-2409为自然语言处理研究和应用提供了新的可能性。
bge-large-en-v1.5-onnx - bge-large-en-v1.5模型的ONNX转化用于文本相似性和分类
模型推理文本分类开源项目ONNXBAAI模型Huggingface句子相似度Github
项目bge-large-en-v1.5的ONNX版本,适用于文本分类和相似性搜索。使用FastEmbed工具进行推理,可实现灵活高效的文本嵌入,具备快速计算与高准确性,适合大规模文本数据分析场景。
Phi-3-mini-4k-instruct-int4-ov - Phi-3-mini-4k-instruct模型的OpenVINO INT4量化与兼容性概览
Phi-3-mini-4k-instructGithub开源项目量化OpenVINO模型推理MIT许可证Huggingface模型
Phi-3-mini-4k-instruct模型通过NNCF的INT4权重压缩被转换为OpenVINO™ IR格式,增强OpenVINO推理效率。适用于OpenVINO 2024.4.0及以上版本,与Optimum Intel 1.23.1兼容,实现高效模型推理。
ggml_llava-v1.5-13b - 面向llama.cpp的LLaVA视觉语言模型推理文件
llava开源项目ggml模型机器学习Github模型推理llama.cppHuggingface
这是一个为llama.cpp提供的GGUF文件集合,专门用于llava-v1.5-13b视觉语言模型的端到端推理,无需额外依赖即可部署。其中mmproj-model-f16.gguf文件结构仍处于实验阶段,需要配合llama.cpp最新代码使用以保证兼容性。
ZHMix-Dramatic-v2.0 - Stable Diffusion驱动的戏剧性AI绘画模型
Github人工智能Stable DiffusionHuggingface图像生成模型推理文字转图像开源项目模型
ZHMix-Dramatic-v2.0是一个基于Stable Diffusion技术的AI绘画模型,专注于生成富有戏剧性的高质量图像。该模型支持文本到图像的转换,可通过Hugging Face的API使用。它为创意和艺术项目提供了强大的工具,使创作者能够生成独特且富有表现力的视觉作品。
gte-large-onnx - ONNX格式文本向量模型实现快速分类与相似度搜索
ONNX文本分类Github相似度搜索Huggingface模型推理文本嵌入开源项目模型
gte-large-onnx是thenlper/gte-large模型的ONNX移植版本,用于文本分类和相似度搜索任务。该模型与FastEmbed框架集成,支持通过API调用生成文本嵌入向量,实现批量文本处理。基于Apache-2.0许可证开源,可用于构建文本相似度检索和文档分类等应用
Qwen2.5-14B-Instruct-GGUF - 针对不同硬件环境优化的大模型量化版本
Qwen2.5-14B-Instruct模型推理开源项目模型HuggingfaceGPU运算模型量化Github人工智能模型
Qwen2.5-14B-Instruct模型的量化优化项目,通过F16到Q2_K等多种精度量化方案,将模型体积压缩至5.36GB-29.55GB范围。项目集成了ARM芯片优化版本和创新的I-quant量化技术,实现了模型性能、速度与硬件适配的平衡。量化版本涵盖了从高精度到轻量级的多个选项,方便在不同计算资源条件下部署使用。
TinyLlama-1.1B-Chat-v0.3-GPTQ - TinyLlama 1.1B Chat GPTQ模型的多样化量化参数选择及使用指南
GithubZhang PeiyuanTinyLlama量化模型开源项目GPTQHuggingface模型推理
项目提供多种GPTQ模型参数,支持不同推理需求,参数包括位深、组大小与激活顺序,以适应多种硬件需求。由TheBloke进行模型量化,支持GPTQ客户端兼容性,校准数据集确保量化精度,如wikitext。提供灵活的分支信息,便于集成至文本生成工具或Python应用中。
gemma-2-27b-it-gptq-4bit - Gemma-2-27b的量化模型,优化加载与推理效率
Huggingface量化GPTQModel开源项目Gemma-2模型模型推理Github自然历史博物馆
Gemma-2-27b经过GPTQ 4位量化优化,使其在资源受限环境中高效运行。采用GPTQModel量化,并通过vllm进行推理,适用于简洁高效的推理场景。关键特性包括128组大小、动态分组、对称量化、激活功能和顺序推理,提升模型体验。
ChatTTS - 高效定制语音生成,支持速度与情感调节
学术用途Huggingface文本到音频开源项目模型模型推理GithubChatTTS开源
ChatTTS项目提供文本到音频转换,通过调整语音速度、选择说话者和控制情感表达,支持个性化语音生成,适合学术研究和教育使用。
Codestral-22B-v0.1 - 支持多语言代码生成和填空功能,涵盖80多种编程语言,包括Python和Java
编程语言代码生成GithubCodestral-22B-v0.1开源项目模型模型推理机械学习Huggingface
Codestral-22B-v0.1是Mistral AI开发的模型,覆盖80多种编程语言的数据集,包括Python、Java、C等流行语言。该模型可通过mistral_common、mistral_inference和transformers库进行推理,支持用户消息生成代码和填空模式预测,适合软件开发者在VS Code等环境中使用。目前不具备内容审核机制,团队将继续改进以适应需审核环境的部署
scoresdeve-ema-celeba-64 - 无条件图像生成的高效DiffusionPipeline
AI绘图unconditional-image-generation开源项目模型Diffusers图像生成Github模型推理Huggingface
该项目通过diffusers库的DiffusionPipeline实现无条件图像生成,使用eurecom-ds/celeba数据集,并兼容CUDA设备,提供了加载预训练模型和生成图像的高效方案。模型通过固定种子实现一致的推理输出,适用于AI研究和开发。用户可以自定义推理步骤,满足不同场景下的图像生成需求,拓展计算机视觉应用。
VideoLLaMA2-7B - 多模态大语言模型在视频时空建模和音频理解上的应用
模型推理多模态大语言模型开源项目视频问答空间-时间建模模型VideoLLaMA 2HuggingfaceGithub
VideoLLaMA2-7B 项目聚焦于视频时空的建模与音频理解,利用先进的视觉和语音编码技术提升视频内容分析能力。项目支持视频聊天和多选视频问答,提供训练与推理代码,适用于多种场景需求,并开放模型权重及技术报告以支持研究与开发。
MobileVLM-1.7B - 移动设备优化的高效多模态视觉语言模型
多模态MobileVLM性能评估移动设备模型Github开源项目模型推理Huggingface
MobileVLM-1.7B是一种专为移动设备设计的多模态视觉语言模型,通过多种优化技术实现高效推理,支持跨模态交互。该模型在标准基准测试中表现出色,并经过CLIP方式的预训练。在Qualcomm Snapdragon 888和NVIDIA Jeston Orin设备上的处理速度分别为每秒21.5个和65.3个令牌。