#模型推理

InferLLM学习资料汇总 - 轻量级LLM模型推理框架

2 个月前
Cover of InferLLM学习资料汇总 - 轻量级LLM模型推理框架

Awesome-LLM-Inference学习资料汇总 - 大语言模型推理优化必备参考

2 个月前
Cover of Awesome-LLM-Inference学习资料汇总 - 大语言模型推理优化必备参考

DeepSpeed入门学习资料汇总-深度学习优化软件套件

2 个月前
Cover of DeepSpeed入门学习资料汇总-深度学习优化软件套件

LLMSys-PaperList: 大语言模型系统研究的前沿进展

3 个月前
Cover of LLMSys-PaperList: 大语言模型系统研究的前沿进展

OpenVINO™ Model Server:高性能可扩展的AI推理服务平台

3 个月前
Cover of OpenVINO™ Model Server:高性能可扩展的AI推理服务平台

FasterTransformer4CodeFuse: 高性能LLM推理引擎

3 个月前
Cover of FasterTransformer4CodeFuse: 高性能LLM推理引擎

llama2.c: 纯C语言实现的Llama 2推理引擎

3 个月前
Cover of llama2.c: 纯C语言实现的Llama 2推理引擎

Meta Chameleon: 革命性的多模态早期融合基础模型

3 个月前
Cover of Meta Chameleon: 革命性的多模态早期融合基础模型

ORTEX: 革新金融分析的强大工具

3 个月前
Cover of ORTEX: 革新金融分析的强大工具

Awesome-LLMOps: 大型语言模型运维的最佳实践与工具

3 个月前
Cover of Awesome-LLMOps: 大型语言模型运维的最佳实践与工具
相关项目
Project Cover

DeepSpeed

DeepSpeed 是一个深度学习优化软件套件,专为大规模模型训练和推理设计,能显著优化系统性能和降低成本。它支持亿级至万亿级参数的高效管理,兼容各种计算环境,从资源受限的GPU系统到庞大的GPU集群。此外,DeepSpeed 在模型压缩和推理领域亦取得创新成就,提供极低的延迟和极高的处理速率。

Project Cover

Awesome-LLM-Inference

Awesome-LLM-Inference项目提供了一系列关于大型语言模型推理的研究论文和配套代码,涵盖了从基础框架到先进技术的全面资源,旨在帮助研究人员和开发者提高推理效率和性能。提供了全面的信息和技术支持,用于研究和开发高性能的大型语言模型。

Project Cover

InferLLM

InferLLM 是一个高效简洁的语言模型推理框架,源于 llama.cpp 项目。主要特点包括结构简单、高性能、易于上手,并支持多模型格式。目前兼容 CPU 和 GPU,可优化 Arm、x86、CUDA 和 riscv-vector,并支持移动设备部署。InferLLM 引入了专有 KVstorage 类型以简化缓存和管理,适合多种应用场景。最新支持的模型包括 LLama-2-7B、ChatGLM、Alpaca 等。

Project Cover

llama2.mojo

llama2.mojo项目展示了如何将llama2模型移植到Mojo中,通过Mojo的SIMD和矢量化原语,将Python性能提升近250倍。在多线程推理中,Mojo版的性能超过了原始llama2.c的30%,在CPU上进行baby-llama推理时,性能超过了llama.cpp的20%。项目当前支持多个模型,包括stories和Tinyllama-1.1B-Chat。用户可以通过简单的命令行步骤或使用Docker在本地部署并运行该项目。

Project Cover

flux

Flux是Black Forest Labs开发的开源AI框架,用于文本到图像和图像到图像的转换。该项目提供pro、dev和schnell三个模型版本,满足不同性能需求。Flux支持本地部署、API调用及Diffusers集成,具有良好的灵活性。其代码简洁,接口直观,便于创意工作者和开发者使用。

Project Cover

Awesome-LLMOps

Awesome-LLMOps列出了大语言模型运维(LLMOps)领域的优秀工具和资源。涵盖模型训练、部署、优化、服务、安全、搜索和代码AI等方面。该项目为开发者提供了构建和管理大规模语言模型应用的重要参考。

Project Cover

python-audio-separator

Audio Separator是一个开源的Python音频分离工具,能将音频文件分离为人声、乐器等多个音轨。支持WAV、MP3等常见格式,提供命令行和Python API接口。采用MDX-Net、VR Arch等AI模型,支持GPU加速,可快速分离高质量音轨。适用于卡拉OK制作和音乐后期处理等场景。

Project Cover

candle

Candle是一款基于Rust开发的机器学习框架,专注于性能优化和易用性。它支持GPU加速计算,提供LLaMA、Stable Diffusion等多种AI模型示例。Candle采用类PyTorch的简洁语法,支持模型训练和自定义操作。该框架具有优化的CPU和CUDA后端,同时支持WebAssembly。作为一个轻量级但功能强大的框架,Candle适用于机器学习应用的快速开发和部署。

Project Cover

llama.cpp

llama.cpp 提供了基于 C/C++ 的纯粹实现,支持包括 LLaMA 在内的多个模型的推理。专为多种硬件和操作系统优化,包括使用 ARM NEON、AVX 指令集和 Metal 框架的设备。此外,项目支持使用 NVIDIA GPU 的自定义 CUDA 核心,以及通过 HIP 支持 AMD GPU,为开发者在本地或云环境中实现高效、低延迟的大规模语言模型推理提供了强大的灵活性和可扩展性。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号