#低延迟
lorax - 支持在单个GPU上运行数千个微调模型的框架
Github开源项目LoRAX多模型推理高通量低延迟生产准备
LoRAX框架支持在单个GPU上运行数千个微调模型,有效降低服务成本且不影响吞吐量和延迟。主要特点包括动态适配器加载、异构连续批处理、适配器交换调度和优化推理。LoRAX提供预构建的Docker镜像、Kubernetes Helm图表和Prometheus指标,并兼容OpenAI API,支持多轮聊天对话和私有适配器。免费商用,采用Apache 2.0许可。
infinity - 高效低延迟的REST API用于矢量嵌入,支持多种模型
Github开源项目REST API高吞吐量低延迟Infinity向量嵌入
Infinity是一个高吞吐量、低延迟的REST API,专为矢量嵌入服务,支持所有SentenceTransformers模型和框架。其内置如torch、optimum、CTranslate2等快速推理后端,兼容多种硬件加速器。API简单易用,基于FastAPI和Swagger,完全文档化,并与OpenAI嵌入规范对齐。Infinity支持动态批处理、多模态、INT8和FP8等功能,提供多种部署方式,包括Docker、Python API和云端服务。
venice - 全球工作负载的衍生数据存储平台
Github开源项目高吞吐量低延迟多租户Venice多集群支持
Venice是一个衍生数据存储平台,提供高吞吐量的批处理和流处理数据异步摄取,低延迟的在线读取,基于CRDT的区域间主动主动复制,多集群支持和多租户水平伸缩能力。适用于Feathr等特征存储,支持离线、近线和在线工作负载的多种写操作和读取API,具有分片感知和本地缓存功能的客户端模式,满足不同性能和成本需求。
ucx - 经过生产验证的通信框架
Github开源项目低延迟Unified Communication XUCX通信框架高带宽
UCX是一个屡获殊荣且经过优化的通信框架,适用于现代高带宽和低延迟网络。它提供的抽象通信原语可以充分利用最佳硬件资源和卸载能力,包括RDMA、TCP、GPU、共享内存和网络原子操作。UCX支持多种传输协议和CPU架构,如Infiniband、RoCE、CUDA及x86_64、Power8/9和Arm v8,为高性能计算领域提供稳定和高效的通信服务。
DeepSpeed-MII - 开源低延迟模型推理库
Github开源项目模型支持高吞吐量低延迟优化技术DeepSpeed-MII
DeepSpeed-MII是一款开源Python库,专注于高吞吐量、低延迟和成本效益的模型推理。支持的技术包括块状KV缓存、连续批处理、高性能CUDA内核等,适用于37000多个模型,如Llama-2、Mixtral和Phi-2。v0.2版本提升了性能和功能,吞吐量提高至2.5倍。适用于语言模型及图像生成任务。
RealtimeTTS - 实时低延迟高质量文本转语音库
Github开源项目多语言支持高质量音频低延迟RealtimeTTS多引擎支持
RealtimeTTS是一款低延迟、高质量的实时文本转语音库。支持OpenAI、Elevenlabs、Azure、Coqui、gTTS和系统TTS引擎,兼容多语言,适用于专业和关键场景。新增灵活定制安装选项,用户可以选择所需功能模块。通过回退机制确保持续运行,完美兼容大语言模型,实现即时文本流转换和清晰自然的语音输出。
libriscv - 轻量级高性能RISC-V模拟沙箱
Github开源项目模拟器低延迟RISC-V沙箱嵌入式
libriscv是一款轻量级RISC-V模拟沙箱,专注于低延迟和低内存占用。它具备超低延迟函数调用、高速解释执行和安全VM接口等特性,支持多平台嵌入和二进制翻译。libriscv适用于游戏脚本和安全沙箱等场景,提供CLI工具和GDB远程调试支持,可满足RISC-V程序开发和测试需求。该项目仅需C++17环境即可使用。
disruptor-rs - Rust实现的高性能跨线程通信库
Github开源项目Rust低延迟并发编程Disruptor线程通信
disruptor-rs是一个Rust实现的高性能跨线程通信库。支持多种生产者-消费者模式,提供批量事件处理功能。专注低延迟设计,基准测试优于Crossbeam。支持线程亲和性设置和处理器线程命名,适用于对延迟敏感的应用场景。
Spam Filter - 高效隐私保护垃圾邮件过滤API
隐私保护AI工具API服务低延迟AI预测垃圾邮件过滤
DeSpam提供专业的垃圾邮件过滤API服务,采用零日志政策、军事级安全标准和AI技术,确保用户隐私和通信安全。该服务具有低延迟和高可用性,适用于个人和各规模企业。通过多种定价方案,DeSpam为不同需求提供灵活选择,快速准确识别垃圾内容,是可靠的通信安全解决方案。
ambry - 企业级分布式对象存储系统
Github开源项目高可用性低延迟可扩展性Ambry分布式对象存储
Ambry是一个分布式对象存储系统,可高效管理海量小型和大型对象。系统具备高可用性、可扩展性、低延迟和高吞吐量等特性。除了适用于Web公司的媒体对象存储,Ambry还可用于数据库备份、搜索索引和业务报告等多种场景。其易用性和成本效益使其成为企业级存储的理想选择。
sonobus - 实时多人音频流传输应用程序
Github开源项目跨平台低延迟音频流媒体SonoBus多人连接
SonoBus是一款开源的实时音频流传输应用程序,支持通过互联网或本地网络进行多人高质量、低延迟的音频连接。该工具适用于远程音乐创作、播客录制等场景,提供延迟和音质的精细控制。SonoBus具备输入压缩、噪声门和均衡器等功能,可作为独立应用在多个操作系统上运行,也可作为音频插件在DAW中使用。此外,SonoBus支持无损PCM和Opus压缩音频传输,满足不同的音质需求。
mpegts.js - 轻量级HTML5 MPEG2-TS流播放器 专注低延迟直播
Github开源项目低延迟HTML5mpegts.js流媒体播放器MPEG2-TS
mpegts.js是一个基于HTML5的MPEG2-TS流播放器,采用TypeScript和JavaScript开发。该项目针对DVB/ISDB电视和监控摄像头等低延迟直播场景进行了优化。它支持通过HTTP(S)或WebSocket传输的H.264/H.265编码的MPEG2-TS和FLV流,具有低延迟和低CPU占用特点。此外,mpegts.js还提供动态编解码器参数调整、PES私有数据提取和定时ID3元数据回调等功能。
相关文章