#高吞吐量

Infinity 学习资料汇总 - 高性能文本嵌入和重排序API

2 个月前
Cover of Infinity 学习资料汇总 - 高性能文本嵌入和重排序API

vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎

2 个月前
Cover of vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎

FlexGen入门指南 - 在单个GPU上高吞吐量运行大型语言模型

2 个月前
Cover of FlexGen入门指南 - 在单个GPU上高吞吐量运行大型语言模型

Sample Factory: 高吞吐量的同步和异步强化学习框架

3 个月前
Cover of Sample Factory: 高吞吐量的同步和异步强化学习框架

Venice: 面向星球级工作负载的衍生数据平台

3 个月前
Cover of Venice: 面向星球级工作负载的衍生数据平台

DeepSpeed-MII: 高吞吐低延迟的模型推理利器

3 个月前
Cover of DeepSpeed-MII: 高吞吐低延迟的模型推理利器

Infinity: 高性能文本嵌入和重排序API

3 个月前
Cover of Infinity: 高性能文本嵌入和重排序API

vLLM:高效易用的大语言模型推理和服务引擎

3 个月前
Cover of vLLM:高效易用的大语言模型推理和服务引擎

FlexGen: 在单个GPU上高效运行大型语言模型

3 个月前
Cover of FlexGen: 在单个GPU上高效运行大型语言模型
相关项目
Project Cover

FlexGen

FlexGen通过高效的IO卸载、压缩和大批量处理,实现了在单GPU上高吞吐量运行大语言模型。该系统专为高吞吐量任务设计,如信息提取和数据处理,特别适合成本敏感的环境。虽然FlexGen在小批量任务上速度较慢,但在批量处理和低成本硬件上具有显著优势。

Project Cover

vllm

vLLM是一个高性能且易用的LLM推理与服务平台,具备PagedAttention内存管理、CUDA/HIP图形加速、量化支持、并行解码算法及流式输出等技术优势。vLLM无缝集成Hugging Face模型,兼容多种硬件设备,支持分布式推理和OpenAI API。最新版本支持Llama 3.1和FP8量化。用户可通过pip安装并参考详细文档快速入门。

Project Cover

infinity

Infinity是一个高吞吐量、低延迟的REST API,专为矢量嵌入服务,支持所有SentenceTransformers模型和框架。其内置如torch、optimum、CTranslate2等快速推理后端,兼容多种硬件加速器。API简单易用,基于FastAPI和Swagger,完全文档化,并与OpenAI嵌入规范对齐。Infinity支持动态批处理、多模态、INT8和FP8等功能,提供多种部署方式,包括Docker、Python API和云端服务。

Project Cover

vectorflow

VectorFlow 提供高效、可靠的 API 端点,能够快速处理和存储大量原始数据的向量嵌入。支持多种文本格式(如 TXT、PDF、HTML、DOCX),推荐在生产环境中使用 Kubernetes 部署。用户可以通过 Python 客户端或 Docker-Compose 快速本地运行。项目当前为 MVP 版本,具备重试功能、集成 AWS S3 和自定义块校验 Webhook 等特性。访问官方文档或加入社区以了解更多信息及使用案例。

Project Cover

venice

Venice是一个衍生数据存储平台,提供高吞吐量的批处理和流处理数据异步摄取,低延迟的在线读取,基于CRDT的区域间主动主动复制,多集群支持和多租户水平伸缩能力。适用于Feathr等特征存储,支持离线、近线和在线工作负载的多种写操作和读取API,具有分片感知和本地缓存功能的客户端模式,满足不同性能和成本需求。

Project Cover

DeepSpeed-MII

DeepSpeed-MII是一款开源Python库,专注于高吞吐量、低延迟和成本效益的模型推理。支持的技术包括块状KV缓存、连续批处理、高性能CUDA内核等,适用于37000多个模型,如Llama-2、Mixtral和Phi-2。v0.2版本提升了性能和功能,吞吐量提高至2.5倍。适用于语言模型及图像生成任务。

Project Cover

sample-factory

Sample Factory是一个高效的强化学习库,专注于同步和异步策略梯度实现。它提供优化的算法架构、灵活的训练模式和多种环境支持,包括多智能体训练和PBT等功能。该库在VizDoom、IsaacGym和DMLab-30等多个领域展现出优秀性能,同时减少训练时间和硬件需求。Sample Factory支持导入其他项目,并允许自定义环境和模型架构。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号