#模型推理

InferLLM学习资料汇总 - 轻量级LLM模型推理框架

2 个月前

InferLLM llama.cpp 模型推理高效率多模型兼容 Github 开源项目

2 个月前

Awesome-LLM-Inference学习资料汇总 - 大语言模型推理优化必备参考

2 个月前

Awesome-LLM-Inference 模型训练模型推理算法优化量化压缩 Github 开源项目

2 个月前

DeepSpeed入门学习资料汇总-深度学习优化软件套件

2 个月前

DeepSpeed 大规模模型训练模型压缩分布式训练模型推理 Github 开源项目

2 个月前

LLMSys-PaperList: 大语言模型系统研究的前沿进展

3 个月前

LLM 深度学习系统优化模型训练模型推理 Github 开源项目

3 个月前

OpenVINO™ Model Server:高性能可扩展的AI推理服务平台

3 个月前

OpenVINO Model Server 模型推理微服务架构 AI部署模型管理 Github 开源项目

3 个月前

FasterTransformer4CodeFuse: 高性能LLM推理引擎

3 个月前

FasterTransformer CodeFuse 模型推理性能优化量化 Github 开源项目

3 个月前

llama2.c: 纯C语言实现的Llama 2推理引擎

3 个月前

Llama 2 C语言模型推理 AI模型开源项目 Github

3 个月前

Meta Chameleon: 革命性的多模态早期融合基础模型

3 个月前

Meta Chameleon 多模态模型 AI研究模型推理可视化工具 Github 开源项目

3 个月前

ORTEX: 革新金融分析的强大工具

3 个月前

Ortex ONNX Runtime 机器学习模型 Elixir 模型推理 Github 开源项目

3 个月前

Awesome-LLMOps: 大型语言模型运维的最佳实践与工具

3 个月前

LLMOps 大语言模型模型部署 AI框架模型推理 Github 开源项目

3 个月前

相关项目

DeepSpeed

DeepSpeed 是一个深度学习优化软件套件，专为大规模模型训练和推理设计，能显著优化系统性能和降低成本。它支持亿级至万亿级参数的高效管理，兼容各种计算环境，从资源受限的GPU系统到庞大的GPU集群。此外，DeepSpeed 在模型压缩和推理领域亦取得创新成就，提供极低的延迟和极高的处理速率。

Awesome-LLM-Inference

Awesome-LLM-Inference项目提供了一系列关于大型语言模型推理的研究论文和配套代码，涵盖了从基础框架到先进技术的全面资源，旨在帮助研究人员和开发者提高推理效率和性能。提供了全面的信息和技术支持，用于研究和开发高性能的大型语言模型。

InferLLM

InferLLM 是一个高效简洁的语言模型推理框架，源于 llama.cpp 项目。主要特点包括结构简单、高性能、易于上手，并支持多模型格式。目前兼容 CPU 和 GPU，可优化 Arm、x86、CUDA 和 riscv-vector，并支持移动设备部署。InferLLM 引入了专有 KVstorage 类型以简化缓存和管理，适合多种应用场景。最新支持的模型包括 LLama-2-7B、ChatGLM、Alpaca 等。

llama2.mojo

llama2.mojo项目展示了如何将llama2模型移植到Mojo中，通过Mojo的SIMD和矢量化原语，将Python性能提升近250倍。在多线程推理中，Mojo版的性能超过了原始llama2.c的30%，在CPU上进行baby-llama推理时，性能超过了llama.cpp的20%。项目当前支持多个模型，包括stories和Tinyllama-1.1B-Chat。用户可以通过简单的命令行步骤或使用Docker在本地部署并运行该项目。

flux

Flux是Black Forest Labs开发的开源AI框架，用于文本到图像和图像到图像的转换。该项目提供pro、dev和schnell三个模型版本，满足不同性能需求。Flux支持本地部署、API调用及Diffusers集成，具有良好的灵活性。其代码简洁，接口直观，便于创意工作者和开发者使用。

Awesome-LLMOps

Awesome-LLMOps列出了大语言模型运维(LLMOps)领域的优秀工具和资源。涵盖模型训练、部署、优化、服务、安全、搜索和代码AI等方面。该项目为开发者提供了构建和管理大规模语言模型应用的重要参考。

python-audio-separator

Audio Separator是一个开源的Python音频分离工具，能将音频文件分离为人声、乐器等多个音轨。支持WAV、MP3等常见格式，提供命令行和Python API接口。采用MDX-Net、VR Arch等AI模型，支持GPU加速，可快速分离高质量音轨。适用于卡拉OK制作和音乐后期处理等场景。

candle

Candle是一款基于Rust开发的机器学习框架,专注于性能优化和易用性。它支持GPU加速计算,提供LLaMA、Stable Diffusion等多种AI模型示例。Candle采用类PyTorch的简洁语法,支持模型训练和自定义操作。该框架具有优化的CPU和CUDA后端,同时支持WebAssembly。作为一个轻量级但功能强大的框架,Candle适用于机器学习应用的快速开发和部署。

llama.cpp

llama.cpp 提供了基于 C/C++ 的纯粹实现，支持包括 LLaMA 在内的多个模型的推理。专为多种硬件和操作系统优化，包括使用 ARM NEON、AVX 指令集和 Metal 框架的设备。此外，项目支持使用 NVIDIA GPU 的自定义 CUDA 核心，以及通过 HIP 支持 AMD GPU，为开发者在本地或云环境中实现高效、低延迟的大规模语言模型推理提供了强大的灵活性和可扩展性。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com