#GPU加速

languagemodels - 轻松实现低内存大语言模型推理的Python库

Language ModelsPython大语言模型语义搜索GPU加速Github开源项目

该Python库简化了大语言模型的使用，最低内存需求仅为512MB，确保所有推理在本地完成以保障数据隐私。支持GPU加速及多种模型配置，功能涵盖文本翻译、代码补全、语义搜索等，适合教育和商业用途。用户可通过简单的pip命令安装，在REPL、笔记本或脚本中使用。详见官方网站的文档与示例程序。

pytorch - 能GPU加速的Python深度学习平台

PyTorchGPU加速深度学习神经网络

PyTorch是一个开源的提供强大GPU加速的张量计算和深度神经网络平台，基于动态autograd系统设计。它不仅支持广泛的科学计算需求，易于使用和扩展，还可以与Python的主流科学包如NumPy、SciPy无缝集成，是进行深度学习和AI研究的理想工具。

vits-simple-api - 多功能语音合成和转换API

vits-simple-api人工智能文本转语音GPU加速多模型支持Github开源项目

vits-simple-api运用先进的VITS技术，支持文本到语音的转换，包括情感和声音风格的自定义，适用于众多场景。此外，项目还支持中文、日语等多语言，提供实时和批量处理模式，以及Docker和虚拟环境部署选项，确保安装和使用的便捷性。

DALI - 加速深度学习应用的GPU加速数据加载与预处理库

NVIDIA DALIGPU加速深度学习数据预处理多框架支持Github开源项目

NVIDIA DALI是一个GPU加速的数据加载和预处理库，专为提高深度学习应用效率而设计。它提供了一套优化的工具，改善图像、视频和音频的处理，同时解决CPU瓶颈，支持跨多平台框架使用。此外，DALI利用GPUDirect Storage技术，从而实现从存储到GPU内存的直接数据传输，显著提升处理速度。

NeMo-Curator - 提供GPU加速的大型语言模型数据集优化与管理解决方案

NeMo CuratorGPU加速大语言模型数据集准备Python库Github开源项目

NeMo Curator 是一款专为大型语言模型（LLM）设计的开源Python库，通过结合Dask和RAPIDS等技术，实现GPU加速的数据集准备与管理。其功能包括数据下载、语言识别、文本清理、质量过滤、文档去重和个人信息保护等模块，为多种LLM任务提供快速、灵活和可扩展的解决方案，显著提升数据处理效率与模型质量。

llama2-webui - 全平台支持的Llama 2智能Web界面

Llama-2模型llama2-wrapperGPU加速生成文本API兼容性Github开源项目

llama2-webui是一个跨平台的工具，允许在多个操作系统（Linux、Windows、Mac）通过Gradio Web UI轻松运行Llama 2模型。支持从7B到70B等多种模型规模，包含GPTQ和GGUF等，并兼容8位与4位计算模式。此外，项目还支持与OpenAI API兼容，可作为各类生成型应用的后端，旨在为开发人员提供一个便捷且高效的工具。

PowerInfer - 消费级GPU上大型语言模型高效推理引擎

PowerInfer大语言模型GPU加速混合CPU/GPU使用局部性设计Github开源项目

PowerInfer是一款在个人电脑上针对消费级GPU设计的高效大型语言模型(LLM)推理引擎。它结合激活局部性原理和CPU/GPU混合技术，通过优化热/冷激活神经元的处理方式，显著提高推理速度并降低资源消耗。软件还融入了适应性预测器和神经元感知技术，优化了推理效率和精度，支持快速、低延迟的本地模型部署。

Omega-AI - Java深度学习框架，支持多模型构建与GPU加速

深度学习Omega-AIjavaGPU加速神经网络Github开源项目

Omega-AI是一个基于Java的深度学习框架，支持快速搭建并训练神经网络模型，涵盖BP、卷积、循环神经网络等多种类型。支持VGG16、ResNet、YOLO、LSTM、Transformer、GPT-2等多种模型。最新版本支持CUDA和CUDNN加速，极大提高运算速度。项目提供详细的环境配置指南及示例代码，帮助用户轻松上手。

wonnx - 基于Rust的多平台GPU加速ONNX推理工具

WonnxONNXRustGPU加速推理运行时Github开源项目

Wonnx是一个完全用Rust编写的ONNX推理工具，支持Vulkan、Metal和DX12等多个平台，并通过WebGPU在浏览器中运行。用户可以通过命令行工具、Rust库、Python包和JavaScript模块操作和测试ONNX模型。Wonnx支持丰富的操作符，并持续进行性能优化和功能扩展，致力于为开发者提供高效灵活的深度学习模型推理工具。

recommenders-addons - 大规模推荐系统中的动态嵌入技术增强体验

TensorFlow Recommenders Addons推荐系统动态嵌入技术GPU加速大规模训练Github开源项目

TensorFlow Recommenders Addons通过引入动态嵌入技术，使TensorFlow更适合搜索、推荐和广告模型的训练，全面兼容TensorFlow优化器和CheckPoint功能，支持GPU上的训练和推理。项目增强了推荐系统性能，解决了哈希冲突问题，并提供多种动态嵌入存储选项（如cuckoohash_map和Redis）。支持TF serving和Triton Inference Server，以便在大规模环境中部署和评估复杂推荐模型。

ort - 使用Rust实现的高性能ONNX Runtime包装器

ONNX RuntimeortRust机器学习推理GPU加速Github开源项目

ort 是一个基于 Rust 的非官方 ONNX Runtime 1.18 包装器，能够加速 CPU 和 GPU 上的机器学习推理与训练。提供详细的指导文档、API参考和示例，并支持从 v1.x 迁移到 v2.0。Twitter、Bloop 和 Supabase 等项目均在使用ort。可通过 Discord 或 GitHub 讨论获取支持，欢迎在 Open Collective 上进行赞助。

onediff - 扩散模型加速库

onediffHF diffusersComfyUIPyTorchGPU加速Github开源项目

onediff提供开箱即用的扩散模型加速库，支持HF diffusers和ComfyUI。具备PyTorch代码编译及优化GPU内核，提升速度可达1.7倍。支持SD、SVD、LoRA等算法，兼容多种NVIDIA GPU。网站提供详细的安装与使用指南、性能对比及质量评估，适用于生产环境。了解更多关于onediff的加速方法和最新更新，以及详细的架构与功能特点。

gpytorch - 基于PyTorch实现的灵活高斯过程建模工具

GPyTorchGaussian processPyTorchGPU加速KISS-GPGithub开源项目

GPyTorch是一个基于PyTorch实现的高斯过程库，旨在简便地创建可扩展、灵活的高斯过程模型。它通过数值线性代数技术实现了显著的GPU加速，并集成了如SKI/KISS-GP和随机Lanczos展开等先进算法，同时能与深度学习框架无缝结合。支持Python 3.8及以上版本。更多信息、示例和教程请参阅官方文档。

Open3D - 支持快速开发的3D数据处理开源库

Open3D3D数据处理Python APIC++ APIGPU加速Github开源项目

支持快速开发3D数据处理应用的开源库，提供C++和Python接口。核心功能包括3D数据结构、3D数据处理算法、场景重建、表面对齐、3D可视化、基于物理的渲染（PBR）、3D机器学习支持（与PyTorch和TensorFlow兼容）、核心3D操作的GPU加速。适用于Ubuntu、macOS和Windows平台，支持源码编译和pip安装。

IQA-PyTorch - 纯Python和PyTorch图像质量评估工具箱

PyTorchIQA图像质量评估纯PythonGPU加速Github开源项目

IQA-PyTorch是一款基于纯Python和PyTorch的图像质量评估工具箱，支持多种主流全参考和无参考评估指标。通过GPU加速，评估速度优于Matlab实现，用户可通过命令行或代码进行图像质量评估。该工具箱还支持作为损失函数使用，提供便捷的基准数据集下载和详细文档，适用于评估各种场景。定期更新及多种预训练模型让它成为图像质量评估的理想选择。详情请查阅文档和示例代码。

cucim - 提升多维图像处理性能的开源库

cuCIMRAPIDS图像处理GPU加速多维图像Github开源项目

cuCIM 是一个开源的高性能多维图像处理和计算机视觉软件库，应用于生物医学、地理空间、材料科学、生命科学和遥感领域。利用基于 GPU 的加速技术，cuCIM 提供了增强的大规模和多维 TIFF 文件处理能力，并且支持简便的 Python 接口和多种图像格式，如 Aperio ScanScope 虚拟切片、Philips TIFF 和多分辨率压缩 TIFF 文件。

ailia-models - 跨平台AI推理SDK，支持多种编程语言和模型

ailia SDKAI模型跨平台GPU加速高性能推理Github开源项目

ailia SDK 是一款跨平台高速AI推理工具，适用于Windows、Mac、Linux、iOS、Android、Jetson和Raspberry Pi平台，并支持Unity (C#)、Python、Rust、Flutter (Dart) 和 JNI。该SDK通过Vulkan和Metal利用GPU增强计算性能。用户可通过pip3安装并使用丰富的预训练模型库，包括动作识别、异常检测和音频处理等领域。最新更新增加了mahalanobis-ad和t5_base_japanese_ner模型。

kompute - 通用GPU计算框架，支持AMD、Qualcomm和NVIDIA显卡

KomputeGPU加速机器学习Linux基金会VulkanGithub开源项目

快速、移动友好且异步的通用GPU计算框架，专为高级GPU加速优化。支持Python和C++并兼容Vulkan，适用于机器学习、移动开发和游戏开发。由Linux基金会支持，社区活跃，示例丰富。

DirectML - 跨平台硬件加速机器学习库，支持多种GPU

DirectMLGPU加速机器学习DirectX 12硬件加速Github开源项目

DirectML是一款基于DirectX 12的高性能机器学习库，为常见机器学习任务提供GPU加速。它支持AMD、Intel、NVIDIA等多种DirectX 12兼容GPU，与Direct3D 12无缝集成，具有低开销和跨硬件一致性。DirectML适用于需要高性能和可靠性的机器学习应用，可集成到Windows ML、ONNX Runtime、PyTorch和TensorFlow等主流框架中。

dfdx - Rust中的深度学习库，提供GPU加速和编译时类型检查

dfdx深度学习RustGPU加速神经网络Github开源项目

dfdx是一个注重人体工学和安全性的Rust深度学习库，支持GPU加速和最多6维的张量形状。它在编译时进行形状和类型检查，提供多种张量操作，例如矩阵乘法和卷积。该库还包含神经网络构建模块和标准的深度学习优化器，如Sgd和Adam。设计目标是性能最大化和最小化不安全代码。用户可以启用CUDA特性进行GPU加速，非常适合在Rust中进行深度学习开发的用户。

taskflow - 现代C++并行和异构任务编程库Taskflow

Taskflow并行编程任务图异步编程GPU加速Github开源项目

Taskflow是一个C++任务编程库，专注于并行和异构计算。它通过简洁的API支持静态和动态任务图构建、条件执行和GPU加速。Taskflow提供可视化和分析工具，有助于程序优化。该库在性能和可扩展性方面表现优异，适用于各类并行计算场景，已在学术和工业项目中得到应用。

Merlin - GPU加速推荐系统解决方案助力大规模数据处理与模型训练

NVIDIA Merlin推荐系统GPU加速深度学习特征工程Github开源项目

Merlin是NVIDIA开发的开源库，为推荐系统提供GPU加速解决方案。它包含多个组件如NVTabular和HugeCTR，支持大规模数据处理、特征工程、模型训练和部署。Merlin能处理数百TB数据，通过GPU加速提升系统性能。它兼容TensorFlow、PyTorch等框架，便于构建和优化推荐模型。

ppl.llm.kernel.cuda - 优化大语言模型计算的CUDA内核库

PPL LLMCUDAAI计算GPU加速深度学习Github开源项目

ppl.llm.kernel.cuda是PPL.LLM系统的核心组件，为大语言模型提供CUDA内核实现。该项目针对Ampere和Hopper架构优化，支持x86_64和arm64平台。它提供简单的构建流程，包含NCCL和JIT编译选项，便于性能调优。作为开源项目，ppl.llm.kernel.cuda旨在提高大规模语言模型的计算效率，为AI开发提供底层支持。

ggml - C语言开发的机器学习张量库支持多种AI模型推理

ggml机器学习推理量化GPU加速Github开源项目

ggml是一个C语言编写的机器学习张量库，支持16位浮点和整数量化。该库提供自动微分、优化器和多架构优化，无第三方依赖。ggml可用于GPT、LLaMA、Whisper等多种AI模型的推理。它在CPU上表现高效，同时支持GPU加速，适用于多种设备和平台。

encodec.cpp - Meta's Encodec音频编解码器的C/C++高性能实现

Encodec音频编解码深度学习GGMLGPU加速Github开源项目

encodec.cpp是Meta's Encodec深度学习音频编解码器模型的C/C++实现。该项目基于ggml库开发，无需其他依赖。支持24KHz模型、混合F16/F32精度，并可通过Metal和cuBLAS进行加速。项目提供C风格API和使用示例，正在开发4位和8位量化功能。encodec.cpp为音频编解码任务提供了高性能、易用的开源解决方案。

taichi - Python嵌入式高性能并行编程语言

Taichi Lang并行编程高性能计算Python嵌入GPU加速Github开源项目

Taichi是一款嵌入Python的开源并行编程语言，专注高性能数值计算。它利用LLVM等即时编译器将Python代码转译为GPU或CPU指令，支持CUDA、Vulkan等多种后端。Taichi以其灵活性、高性能和跨平台特性，广泛应用于物理模拟、数值分析、AR和AI等领域。

AMGX - 高性能代数多重网格GPU加速求解器库

AmgXGPU加速线性求解器多重网格法NVIDIAGithub开源项目

AMGX是NVIDIA开发的GPU加速线性求解器库,旨在加速计算密集型仿真的线性求解环节。它具有灵活的求解器组合系统,可构建复杂的嵌套求解器和预处理器。AMGX针对大规模并行计算进行了优化,支持单GPU或多GPU运算,并通过C API简化了并行处理。该库支持多精度计算、复数数据类型和分布式求解,适用于隐式非结构化方法。AMGX为科学计算和工程仿真提供了高效的GPU线性代数解决方案。

brain.js - JavaScript神经网络库的GPU加速解决方案

brain.js神经网络JavaScript机器学习GPU加速Github开源项目

brain.js是一个JavaScript神经网络库，利用GPU加速提高性能，适用于浏览器和Node.js环境。支持前馈神经网络、循环神经网络和自编码器等多种网络类型。该库提供简洁API，便于训练和部署模型。此外，brain.js具备异步训练、数据流处理和交叉验证等功能，适合开发各类智能应用。

TensorRT_Tutorial - 深度学习推理加速实践指南

TensorRT深度学习GPU加速INT8量化性能优化Github开源项目

TensorRT_Tutorial项目是一个综合性资源库，提供NVIDIA TensorRT深度学习推理加速的实用指南。项目包含中文文档翻译、视频教程、博客文章和代码示例，覆盖TensorRT的基础使用和高级优化。内容涉及核心功能介绍、实际应用经验和优化技巧，为深度学习从业者提升模型推理性能提供了宝贵参考。

VideoProcessingFramework - GPU加速视频处理框架提供编解码和格式转换功能

VideoProcessingFrameworkGPU加速视频处理NVIDIAPyNvVideoCodecGithub开源项目

VideoProcessingFramework是一个开源的视频处理框架，由C++库和Python绑定组成。它利用GPU硬件加速实现高效的视频解码、编码、转码以及色彩空间和像素格式转换。该框架支持将GPU内存中的视频帧直接导出为PyTorch张量，避免了额外的数据传输。适用于Linux和Windows平台，依赖NVIDIA驱动、CUDA和FFMPEG。目前正逐步被功能类似但API更简洁的PyNvVideoCodec库取代。

jax - 高性能科学计算和机器学习的Python加速库

JAX自动微分XLAGPU加速神经网络Github开源项目

JAX是一个专为高性能数值计算和大规模机器学习设计的Python库。它利用XLA编译器实现加速器导向的数组计算和程序转换，支持自动微分、GPU和TPU加速。JAX提供jit、vmap和pmap等函数转换工具，让研究人员能够方便地表达复杂算法并获得出色性能，同时保持Python的灵活性。

Starling-Framework - 跨平台游戏引擎创建硬件加速2D游戏和图形应用

游戏引擎跨平台ActionScript 3GPU加速开源Github开源项目

Starling Framework是一个跨平台游戏引擎，用于创建硬件加速应用。开发者可使用ActionScript 3构建高性能2D游戏和图形应用。它基于经典显示树架构，通过GPU渲染实现卓越性能。Starling支持iOS、Android、Windows和macOS等平台，设计轻量且易用。作为开源项目，其源代码便于阅读和扩展，适合开发者深入研究或定制。Starling Framework隐藏了Stage3D的复杂性，同时保留了完整的底层访问能力，为开发者提供了性能与灵活性的完美平衡。

react-native-filament - React Native原生3D渲染引擎提供高性能图形体验

React Native3D渲染Filament物理引擎GPU加速Github开源项目

react-native-filament是一个React Native 3D渲染引擎，结合Google Filament和Bullet3提供物理渲染和原生C++物理引擎。它支持GPU加速和独立线程渲染，提供声明式API。相比其他库，性能和稳定性更佳，已在大规模应用中验证。支持新旧架构，文档完善，适合开发高质量3D React Native应用。

lightning-thunder - PyTorch模型优化编译器显著提升训练速度

PyTorch性能优化编译器深度学习GPU加速Github开源项目

Lightning Thunder是一款专为PyTorch设计的源到源编译器。它通过整合nvFuser、torch.compile、cuDNN等多种硬件执行器，大幅提升PyTorch程序的执行效率。支持单GPU和多GPU环境，在Llama 2 7B模型训练中实现40%的吞吐量提升。Thunder具有易用性、可理解性和可扩展性，是PyTorch开发者提升模型性能的有力工具。

NVTabular - GPU加速的大规模表格数据特征工程库

NVTabularGPU加速特征工程数据预处理推荐系统Github开源项目

NVTabular是NVIDIA Merlin框架的组件，用于处理TB级数据集和训练深度学习推荐系统。该库利用GPU加速计算，提供高级抽象以简化代码。它可处理超出内存限制的大规模数据集，使数据科学家专注于数据操作，快速准备实验数据，并加速生产模型的数据转换过程。

video-subtitle-extractor - 多语言视频字幕批量提取工具，支持GPU加速和多种提取模式

Video-subtitle-extractor字幕提取OCR识别批量提取GPU加速Github开源项目

Video-subtitle-extractor是一款高效的视频字幕提取工具，可以将视频中的硬字幕提取为外挂字幕文件（srt格式）。支持批量处理、多语言字幕提取和水印去除，适用于Windows、macOS和Linux系统。用户可选择快速、自动或精准模式，使用GPU加速提高提取速度和准确度。本地OCR识别无需连接在线服务，适合对字幕提取有高要求的用户。

相关文章

Article Cover

PyTorch:开源机器学习框架的领军者

Article Cover

NVIDIA DALI: 加速深度学习的GPU数据处理库

Article Cover

PowerInfer: 消费级GPU上的高速大语言模型推理引擎

Article Cover

llama2-webui: 本地部署Llama 2模型的开源UI工具

Article Cover

vits-simple-api: 一个简单而强大的语音合成API

Article Cover

NeMo-Curator: NVIDIA打造的大规模数据预处理与策划工具包

Article Cover

OneDiff: 一行代码加速扩散模型的革命性库

Article Cover

IQA-PyTorch: 全面的图像质量评估工具箱

Article Cover

视频硬字幕提取神器:Video-subtitle-extractor全面解析

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号