#高吞吐量

Infinity 学习资料汇总 - 高性能文本嵌入和重排序API

2 个月前

Infinity 高吞吐量低延迟向量嵌入 REST API Github 开源项目

2 个月前

vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎

2 个月前

vLLM LLM服务量化 PagedAttention 高吞吐量 Github 开源项目

2 个月前

FlexGen入门指南 - 在单个GPU上高吞吐量运行大型语言模型

2 个月前

FlexGen 高吞吐量大语言模型 GPU内存优化批处理 Github 开源项目

2 个月前

Sample Factory: 高吞吐量的同步和异步强化学习框架

3 个月前

Sample Factory 强化学习 PPO算法高吞吐量环境集成 Github 开源项目

3 个月前

Venice: 面向星球级工作负载的衍生数据平台

3 个月前

Venice 高吞吐量低延迟多集群支持多租户 Github 开源项目

3 个月前

DeepSpeed-MII: 高吞吐低延迟的模型推理利器

3 个月前

DeepSpeed-MII 高吞吐量低延迟模型支持优化技术 Github 开源项目

3 个月前

Infinity: 高性能文本嵌入和重排序API

3 个月前

Infinity 高吞吐量低延迟向量嵌入 REST API Github 开源项目

3 个月前

vLLM:高效易用的大语言模型推理和服务引擎

3 个月前

vLLM LLM服务量化 PagedAttention 高吞吐量 Github 开源项目

3 个月前

FlexGen: 在单个GPU上高效运行大型语言模型

3 个月前

FlexGen 高吞吐量大语言模型 GPU内存优化批处理 Github 开源项目

3 个月前

相关项目

FlexGen

FlexGen通过高效的IO卸载、压缩和大批量处理，实现了在单GPU上高吞吐量运行大语言模型。该系统专为高吞吐量任务设计，如信息提取和数据处理，特别适合成本敏感的环境。虽然FlexGen在小批量任务上速度较慢，但在批量处理和低成本硬件上具有显著优势。

vllm

vLLM是一个高性能且易用的LLM推理与服务平台，具备PagedAttention内存管理、CUDA/HIP图形加速、量化支持、并行解码算法及流式输出等技术优势。vLLM无缝集成Hugging Face模型，兼容多种硬件设备，支持分布式推理和OpenAI API。最新版本支持Llama 3.1和FP8量化。用户可通过pip安装并参考详细文档快速入门。

infinity

Infinity是一个高吞吐量、低延迟的REST API，专为矢量嵌入服务，支持所有SentenceTransformers模型和框架。其内置如torch、optimum、CTranslate2等快速推理后端，兼容多种硬件加速器。API简单易用，基于FastAPI和Swagger，完全文档化，并与OpenAI嵌入规范对齐。Infinity支持动态批处理、多模态、INT8和FP8等功能，提供多种部署方式，包括Docker、Python API和云端服务。

vectorflow

VectorFlow 提供高效、可靠的 API 端点，能够快速处理和存储大量原始数据的向量嵌入。支持多种文本格式（如 TXT、PDF、HTML、DOCX），推荐在生产环境中使用 Kubernetes 部署。用户可以通过 Python 客户端或 Docker-Compose 快速本地运行。项目当前为 MVP 版本，具备重试功能、集成 AWS S3 和自定义块校验 Webhook 等特性。访问官方文档或加入社区以了解更多信息及使用案例。

venice

Venice是一个衍生数据存储平台，提供高吞吐量的批处理和流处理数据异步摄取，低延迟的在线读取，基于CRDT的区域间主动主动复制，多集群支持和多租户水平伸缩能力。适用于Feathr等特征存储，支持离线、近线和在线工作负载的多种写操作和读取API，具有分片感知和本地缓存功能的客户端模式，满足不同性能和成本需求。

DeepSpeed-MII

DeepSpeed-MII是一款开源Python库，专注于高吞吐量、低延迟和成本效益的模型推理。支持的技术包括块状KV缓存、连续批处理、高性能CUDA内核等，适用于37000多个模型，如Llama-2、Mixtral和Phi-2。v0.2版本提升了性能和功能，吞吐量提高至2.5倍。适用于语言模型及图像生成任务。

sample-factory

Sample Factory是一个高效的强化学习库，专注于同步和异步策略梯度实现。它提供优化的算法架构、灵活的训练模式和多种环境支持，包括多智能体训练和PBT等功能。该库在VizDoom、IsaacGym和DMLab-30等多个领域展现出优秀性能，同时减少训练时间和硬件需求。Sample Factory支持导入其他项目，并允许自定义环境和模型架构。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com