#GPU加速

languagemodels - 轻松实现低内存大语言模型推理的Python库
Language ModelsPython大语言模型语义搜索GPU加速Github开源项目
该Python库简化了大语言模型的使用,最低内存需求仅为512MB,确保所有推理在本地完成以保障数据隐私。支持GPU加速及多种模型配置,功能涵盖文本翻译、代码补全、语义搜索等,适合教育和商业用途。用户可通过简单的pip命令安装,在REPL、笔记本或脚本中使用。详见官方网站的文档与示例程序。
pytorch - 能GPU加速的Python深度学习平台
PyTorchGPU加速深度学习神经网络
PyTorch是一个开源的提供强大GPU加速的张量计算和深度神经网络平台,基于动态autograd系统设计。它不仅支持广泛的科学计算需求,易于使用和扩展,还可以与Python的主流科学包如NumPy、SciPy无缝集成,是进行深度学习和AI研究的理想工具。
vits-simple-api - 多功能语音合成和转换API
vits-simple-api人工智能文本转语音GPU加速多模型支持Github开源项目
vits-simple-api运用先进的VITS技术,支持文本到语音的转换,包括情感和声音风格的自定义,适用于众多场景。此外,项目还支持中文、日语等多语言,提供实时和批量处理模式,以及Docker和虚拟环境部署选项,确保安装和使用的便捷性。
DALI - 加速深度学习应用的GPU加速数据加载与预处理库
NVIDIA DALIGPU加速深度学习数据预处理多框架支持Github开源项目
NVIDIA DALI是一个GPU加速的数据加载和预处理库,专为提高深度学习应用效率而设计。它提供了一套优化的工具,改善图像、视频和音频的处理,同时解决CPU瓶颈,支持跨多平台框架使用。此外,DALI利用GPUDirect Storage技术,从而实现从存储到GPU内存的直接数据传输,显著提升处理速度。
NeMo-Curator - 提供GPU加速的大型语言模型数据集优化与管理解决方案
NeMo CuratorGPU加速大语言模型数据集准备Python库Github开源项目
NeMo Curator 是一款专为大型语言模型(LLM)设计的开源Python库,通过结合Dask和RAPIDS等技术,实现GPU加速的数据集准备与管理。其功能包括数据下载、语言识别、文本清理、质量过滤、文档去重和个人信息保护等模块,为多种LLM任务提供快速、灵活和可扩展的解决方案,显著提升数据处理效率与模型质量。
llama2-webui - 全平台支持的Llama 2智能Web界面
Llama-2模型llama2-wrapperGPU加速生成文本API兼容性Github开源项目
llama2-webui是一个跨平台的工具,允许在多个操作系统(Linux、Windows、Mac)通过Gradio Web UI轻松运行Llama 2模型。支持从7B到70B等多种模型规模,包含GPTQ和GGUF等,并兼容8位与4位计算模式。此外,项目还支持与OpenAI API兼容,可作为各类生成型应用的后端,旨在为开发人员提供一个便捷且高效的工具。
PowerInfer - 消费级GPU上大型语言模型高效推理引擎
PowerInfer大语言模型GPU加速混合CPU/GPU使用局部性设计Github开源项目
PowerInfer是一款在个人电脑上针对消费级GPU设计的高效大型语言模型(LLM)推理引擎。它结合激活局部性原理和CPU/GPU混合技术,通过优化热/冷激活神经元的处理方式,显著提高推理速度并降低资源消耗。软件还融入了适应性预测器和神经元感知技术,优化了推理效率和精度,支持快速、低延迟的本地模型部署。
Omega-AI - Java深度学习框架,支持多模型构建与GPU加速
深度学习Omega-AIjavaGPU加速神经网络Github开源项目
Omega-AI是一个基于Java的深度学习框架,支持快速搭建并训练神经网络模型,涵盖BP、卷积、循环神经网络等多种类型。支持VGG16、ResNet、YOLO、LSTM、Transformer、GPT-2等多种模型。最新版本支持CUDA和CUDNN加速,极大提高运算速度。项目提供详细的环境配置指南及示例代码,帮助用户轻松上手。
wonnx - 基于Rust的多平台GPU加速ONNX推理工具
WonnxONNXRustGPU加速推理运行时Github开源项目
Wonnx是一个完全用Rust编写的ONNX推理工具,支持Vulkan、Metal和DX12等多个平台,并通过WebGPU在浏览器中运行。用户可以通过命令行工具、Rust库、Python包和JavaScript模块操作和测试ONNX模型。Wonnx支持丰富的操作符,并持续进行性能优化和功能扩展,致力于为开发者提供高效灵活的深度学习模型推理工具。
recommenders-addons - 大规模推荐系统中的动态嵌入技术增强体验
TensorFlow Recommenders Addons推荐系统动态嵌入技术GPU加速大规模训练Github开源项目
TensorFlow Recommenders Addons通过引入动态嵌入技术,使TensorFlow更适合搜索、推荐和广告模型的训练,全面兼容TensorFlow优化器和CheckPoint功能,支持GPU上的训练和推理。项目增强了推荐系统性能,解决了哈希冲突问题,并提供多种动态嵌入存储选项(如cuckoohash_map和Redis)。支持TF serving和Triton Inference Server,以便在大规模环境中部署和评估复杂推荐模型。
ort - 使用Rust实现的高性能ONNX Runtime包装器
ONNX RuntimeortRust机器学习推理GPU加速Github开源项目
ort 是一个基于 Rust 的非官方 ONNX Runtime 1.18 包装器,能够加速 CPU 和 GPU 上的机器学习推理与训练。提供详细的指导文档、API参考和示例,并支持从 v1.x 迁移到 v2.0。Twitter、Bloop 和 Supabase 等项目均在使用ort。可通过 Discord 或 GitHub 讨论获取支持,欢迎在 Open Collective 上进行赞助。
onediff - 扩散模型加速库
onediffHF diffusersComfyUIPyTorchGPU加速Github开源项目
onediff提供开箱即用的扩散模型加速库,支持HF diffusers和ComfyUI。具备PyTorch代码编译及优化GPU内核,提升速度可达1.7倍。支持SD、SVD、LoRA等算法,兼容多种NVIDIA GPU。网站提供详细的安装与使用指南、性能对比及质量评估,适用于生产环境。了解更多关于onediff的加速方法和最新更新,以及详细的架构与功能特点。
gpytorch - 基于PyTorch实现的灵活高斯过程建模工具
GPyTorchGaussian processPyTorchGPU加速KISS-GPGithub开源项目
GPyTorch是一个基于PyTorch实现的高斯过程库,旨在简便地创建可扩展、灵活的高斯过程模型。它通过数值线性代数技术实现了显著的GPU加速,并集成了如SKI/KISS-GP和随机Lanczos展开等先进算法,同时能与深度学习框架无缝结合。支持Python 3.8及以上版本。更多信息、示例和教程请参阅官方文档。
Open3D - 支持快速开发的3D数据处理开源库
Open3D3D数据处理Python APIC++ APIGPU加速Github开源项目
支持快速开发3D数据处理应用的开源库,提供C++和Python接口。核心功能包括3D数据结构、3D数据处理算法、场景重建、表面对齐、3D可视化、基于物理的渲染(PBR)、3D机器学习支持(与PyTorch和TensorFlow兼容)、核心3D操作的GPU加速。适用于Ubuntu、macOS和Windows平台,支持源码编译和pip安装。
IQA-PyTorch - 纯Python和PyTorch图像质量评估工具箱
PyTorchIQA图像质量评估纯PythonGPU加速Github开源项目
IQA-PyTorch是一款基于纯Python和PyTorch的图像质量评估工具箱,支持多种主流全参考和无参考评估指标。通过GPU加速,评估速度优于Matlab实现,用户可通过命令行或代码进行图像质量评估。该工具箱还支持作为损失函数使用,提供便捷的基准数据集下载和详细文档,适用于评估各种场景。定期更新及多种预训练模型让它成为图像质量评估的理想选择。详情请查阅文档和示例代码。
cucim - 提升多维图像处理性能的开源库
cuCIMRAPIDS图像处理GPU加速多维图像Github开源项目
cuCIM 是一个开源的高性能多维图像处理和计算机视觉软件库,应用于生物医学、地理空间、材料科学、生命科学和遥感领域。利用基于 GPU 的加速技术,cuCIM 提供了增强的大规模和多维 TIFF 文件处理能力,并且支持简便的 Python 接口和多种图像格式,如 Aperio ScanScope 虚拟切片、Philips TIFF 和多分辨率压缩 TIFF 文件。
ailia-models - 跨平台AI推理SDK,支持多种编程语言和模型
ailia SDKAI模型跨平台GPU加速高性能推理Github开源项目
ailia SDK 是一款跨平台高速AI推理工具,适用于Windows、Mac、Linux、iOS、Android、Jetson和Raspberry Pi平台,并支持Unity (C#)、Python、Rust、Flutter (Dart) 和 JNI。该SDK通过Vulkan和Metal利用GPU增强计算性能。用户可通过pip3安装并使用丰富的预训练模型库,包括动作识别、异常检测和音频处理等领域。最新更新增加了mahalanobis-ad和t5_base_japanese_ner模型。
kompute - 通用GPU计算框架,支持AMD、Qualcomm和NVIDIA显卡
KomputeGPU加速机器学习Linux基金会VulkanGithub开源项目
快速、移动友好且异步的通用GPU计算框架,专为高级GPU加速优化。支持Python和C++并兼容Vulkan,适用于机器学习、移动开发和游戏开发。由Linux基金会支持,社区活跃,示例丰富。
DirectML - 跨平台硬件加速机器学习库,支持多种GPU
DirectMLGPU加速机器学习DirectX 12硬件加速Github开源项目
DirectML是一款基于DirectX 12的高性能机器学习库,为常见机器学习任务提供GPU加速。它支持AMD、Intel、NVIDIA等多种DirectX 12兼容GPU,与Direct3D 12无缝集成,具有低开销和跨硬件一致性。DirectML适用于需要高性能和可靠性的机器学习应用,可集成到Windows ML、ONNX Runtime、PyTorch和TensorFlow等主流框架中。
dfdx - Rust中的深度学习库,提供GPU加速和编译时类型检查
dfdx深度学习RustGPU加速神经网络Github开源项目
dfdx是一个注重人体工学和安全性的Rust深度学习库,支持GPU加速和最多6维的张量形状。它在编译时进行形状和类型检查,提供多种张量操作,例如矩阵乘法和卷积。该库还包含神经网络构建模块和标准的深度学习优化器,如Sgd和Adam。设计目标是性能最大化和最小化不安全代码。用户可以启用CUDA特性进行GPU加速,非常适合在Rust中进行深度学习开发的用户。
taskflow - 现代C++并行和异构任务编程库Taskflow
Taskflow并行编程任务图异步编程GPU加速Github开源项目
Taskflow是一个C++任务编程库,专注于并行和异构计算。它通过简洁的API支持静态和动态任务图构建、条件执行和GPU加速。Taskflow提供可视化和分析工具,有助于程序优化。该库在性能和可扩展性方面表现优异,适用于各类并行计算场景,已在学术和工业项目中得到应用。
Merlin - GPU加速推荐系统解决方案 助力大规模数据处理与模型训练
NVIDIA Merlin推荐系统GPU加速深度学习特征工程Github开源项目
Merlin是NVIDIA开发的开源库,为推荐系统提供GPU加速解决方案。它包含多个组件如NVTabular和HugeCTR,支持大规模数据处理、特征工程、模型训练和部署。Merlin能处理数百TB数据,通过GPU加速提升系统性能。它兼容TensorFlow、PyTorch等框架,便于构建和优化推荐模型。
ppl.llm.kernel.cuda - 优化大语言模型计算的CUDA内核库
PPL LLMCUDAAI计算GPU加速深度学习Github开源项目
ppl.llm.kernel.cuda是PPL.LLM系统的核心组件,为大语言模型提供CUDA内核实现。该项目针对Ampere和Hopper架构优化,支持x86_64和arm64平台。它提供简单的构建流程,包含NCCL和JIT编译选项,便于性能调优。作为开源项目,ppl.llm.kernel.cuda旨在提高大规模语言模型的计算效率,为AI开发提供底层支持。
ggml - C语言开发的机器学习张量库 支持多种AI模型推理
ggml机器学习推理量化GPU加速Github开源项目
ggml是一个C语言编写的机器学习张量库,支持16位浮点和整数量化。该库提供自动微分、优化器和多架构优化,无第三方依赖。ggml可用于GPT、LLaMA、Whisper等多种AI模型的推理。它在CPU上表现高效,同时支持GPU加速,适用于多种设备和平台。
encodec.cpp - Meta's Encodec音频编解码器的C/C++高性能实现
Encodec音频编解码深度学习GGMLGPU加速Github开源项目
encodec.cpp是Meta's Encodec深度学习音频编解码器模型的C/C++实现。该项目基于ggml库开发,无需其他依赖。支持24KHz模型、混合F16/F32精度,并可通过Metal和cuBLAS进行加速。项目提供C风格API和使用示例,正在开发4位和8位量化功能。encodec.cpp为音频编解码任务提供了高性能、易用的开源解决方案。
taichi - Python嵌入式高性能并行编程语言
Taichi Lang并行编程高性能计算Python嵌入GPU加速Github开源项目
Taichi是一款嵌入Python的开源并行编程语言,专注高性能数值计算。它利用LLVM等即时编译器将Python代码转译为GPU或CPU指令,支持CUDA、Vulkan等多种后端。Taichi以其灵活性、高性能和跨平台特性,广泛应用于物理模拟、数值分析、AR和AI等领域。
AMGX - 高性能代数多重网格GPU加速求解器库
AmgXGPU加速线性求解器多重网格法NVIDIAGithub开源项目
AMGX是NVIDIA开发的GPU加速线性求解器库,旨在加速计算密集型仿真的线性求解环节。它具有灵活的求解器组合系统,可构建复杂的嵌套求解器和预处理器。AMGX针对大规模并行计算进行了优化,支持单GPU或多GPU运算,并通过C API简化了并行处理。该库支持多精度计算、复数数据类型和分布式求解,适用于隐式非结构化方法。AMGX为科学计算和工程仿真提供了高效的GPU线性代数解决方案。
brain.js - JavaScript神经网络库的GPU加速解决方案
brain.js神经网络JavaScript机器学习GPU加速Github开源项目
brain.js是一个JavaScript神经网络库,利用GPU加速提高性能,适用于浏览器和Node.js环境。支持前馈神经网络、循环神经网络和自编码器等多种网络类型。该库提供简洁API,便于训练和部署模型。此外,brain.js具备异步训练、数据流处理和交叉验证等功能,适合开发各类智能应用。
TensorRT_Tutorial - 深度学习推理加速实践指南
TensorRT深度学习GPU加速INT8量化性能优化Github开源项目
TensorRT_Tutorial项目是一个综合性资源库,提供NVIDIA TensorRT深度学习推理加速的实用指南。项目包含中文文档翻译、视频教程、博客文章和代码示例,覆盖TensorRT的基础使用和高级优化。内容涉及核心功能介绍、实际应用经验和优化技巧,为深度学习从业者提升模型推理性能提供了宝贵参考。
VideoProcessingFramework - GPU加速视频处理框架 提供编解码和格式转换功能
VideoProcessingFrameworkGPU加速视频处理NVIDIAPyNvVideoCodecGithub开源项目
VideoProcessingFramework是一个开源的视频处理框架,由C++库和Python绑定组成。它利用GPU硬件加速实现高效的视频解码、编码、转码以及色彩空间和像素格式转换。该框架支持将GPU内存中的视频帧直接导出为PyTorch张量,避免了额外的数据传输。适用于Linux和Windows平台,依赖NVIDIA驱动、CUDA和FFMPEG。目前正逐步被功能类似但API更简洁的PyNvVideoCodec库取代。
jax - 高性能科学计算和机器学习的Python加速库
JAX自动微分XLAGPU加速神经网络Github开源项目
JAX是一个专为高性能数值计算和大规模机器学习设计的Python库。它利用XLA编译器实现加速器导向的数组计算和程序转换,支持自动微分、GPU和TPU加速。JAX提供jit、vmap和pmap等函数转换工具,让研究人员能够方便地表达复杂算法并获得出色性能,同时保持Python的灵活性。
Starling-Framework - 跨平台游戏引擎 创建硬件加速2D游戏和图形应用
游戏引擎跨平台ActionScript 3GPU加速开源Github开源项目
Starling Framework是一个跨平台游戏引擎,用于创建硬件加速应用。开发者可使用ActionScript 3构建高性能2D游戏和图形应用。它基于经典显示树架构,通过GPU渲染实现卓越性能。Starling支持iOS、Android、Windows和macOS等平台,设计轻量且易用。作为开源项目,其源代码便于阅读和扩展,适合开发者深入研究或定制。Starling Framework隐藏了Stage3D的复杂性,同时保留了完整的底层访问能力,为开发者提供了性能与灵活性的完美平衡。
react-native-filament - React Native原生3D渲染引擎 提供高性能图形体验
React Native3D渲染Filament物理引擎GPU加速Github开源项目
react-native-filament是一个React Native 3D渲染引擎,结合Google Filament和Bullet3提供物理渲染和原生C++物理引擎。它支持GPU加速和独立线程渲染,提供声明式API。相比其他库,性能和稳定性更佳,已在大规模应用中验证。支持新旧架构,文档完善,适合开发高质量3D React Native应用。
lightning-thunder - PyTorch模型优化编译器 显著提升训练速度
PyTorch性能优化编译器深度学习GPU加速Github开源项目
Lightning Thunder是一款专为PyTorch设计的源到源编译器。它通过整合nvFuser、torch.compile、cuDNN等多种硬件执行器,大幅提升PyTorch程序的执行效率。支持单GPU和多GPU环境,在Llama 2 7B模型训练中实现40%的吞吐量提升。Thunder具有易用性、可理解性和可扩展性,是PyTorch开发者提升模型性能的有力工具。
NVTabular - GPU加速的大规模表格数据特征工程库
NVTabularGPU加速特征工程数据预处理推荐系统Github开源项目
NVTabular是NVIDIA Merlin框架的组件,用于处理TB级数据集和训练深度学习推荐系统。该库利用GPU加速计算,提供高级抽象以简化代码。它可处理超出内存限制的大规模数据集,使数据科学家专注于数据操作,快速准备实验数据,并加速生产模型的数据转换过程。
video-subtitle-extractor - 多语言视频字幕批量提取工具,支持GPU加速和多种提取模式
Video-subtitle-extractor字幕提取OCR识别批量提取GPU加速Github开源项目
Video-subtitle-extractor是一款高效的视频字幕提取工具,可以将视频中的硬字幕提取为外挂字幕文件(srt格式)。支持批量处理、多语言字幕提取和水印去除,适用于Windows、macOS和Linux系统。用户可选择快速、自动或精准模式,使用GPU加速提高提取速度和准确度。本地OCR识别无需连接在线服务,适合对字幕提取有高要求的用户。