#GPU加速

HugeCTR - GPU加速的大规模深度学习推荐系统框架

HugeCTRGPU加速推荐系统深度学习嵌入Github开源项目

HugeCTR是专为大规模深度学习模型设计的GPU加速推荐系统框架,支持高效训练和推理。框架在MLPerf等基准测试中性能卓越,提供直观的API接口,并具备大规模嵌入等核心功能。HugeCTR实现了模型并行训练、混合精度计算、嵌入缓存等先进特性,可高效部署超大规模嵌入的推荐模型。

torchmd-net - 神经网络势能模型的高效训练与实现框架

TorchMD-NET神经网络势能分子动力学PyTorchGPU加速Github开源项目

TorchMD-NET是一个先进的神经网络势能(NNP)模型框架，提供高效快速的NNP实现。该框架与ACEMD、OpenMM和TorchMD等GPU加速分子动力学代码集成，并将NNP作为PyTorch模块提供。项目支持等变Transformer、Transformer、图神经网络和TensorNet等多种架构，可通过conda-forge安装或从源代码构建。TorchMD-NET具有灵活的训练配置选项，支持自定义数据集和多节点训练，并提供预训练模型。

marker - 高效准确的PDF转Markdown转换器支持多语言和多类文档

PDF转换Markdown深度学习OCRGPU加速Github开源项目

Marker是一款高效的PDF转Markdown转换工具，支持多语言和多类文档，特别适合处理书籍和科学论文。该工具能自动清理页眉页脚，格式化表格和代码，提取图像，并将方程转为LaTeX。Marker可在GPU、CPU或MPS上运行，具有优异的性能和准确度。其独特的深度学习模型流程确保了转换的速度和质量。

faiss - 快速向量搜索与聚类库

Faiss向量相似度搜索聚类GPU加速高维向量Github开源项目

Faiss是一个开源的高性能向量搜索和聚类库，专为大规模数据集设计。它支持多种索引方法，能够在搜索速度、结果质量和内存使用之间实现平衡。Faiss适用于推荐系统、图像检索等机器学习应用，可处理从小型到超大规模的向量数据。该库由Meta AI研究团队开发，提供C++和Python接口，支持CPU和GPU计算，为高维向量处理提供了高效解决方案。

distrifuser - 高效分布式并行推理助力高分辨率图像生成

DistriFusiondiffusion模型并行推理高分辨率GPU加速Github开源项目

DistriFusion是一种用于高分辨率扩散模型的分布式并行推理算法。该方法无需额外训练，通过多GPU协同工作加速推理过程，同时保持图像质量。其创新的补丁交互技术解决了传统方法的碎片化问题，在高分辨率图像生成任务中显著提升了性能。该项目已在CVPR 2024被评为亮点工作，并开源了相关代码。

fastllm - 纯C++实现的跨平台大语言模型推理库

fastllm大模型推理多平台c++实现GPU加速Github开源项目

fastllm是一个纯C++实现的大语言模型推理库，无第三方依赖，支持多平台部署。这个开源项目具有快速的推理速度，支持多种模型格式，可实现多卡部署和流式输出。fastllm兼容ChatGLM、Qwen、LLAMA等多种模型，提供Python接口和自定义模型结构功能。该项目适用于需要高效、灵活部署大语言模型的场景。

jax-triton - JAX与Triton集成实现GPU计算加速

JAXTritonjax-tritonCUDAGPU加速Github开源项目

jax-triton项目实现了JAX和Triton的集成，让开发者能在JAX中使用Triton的GPU计算功能。通过triton_call函数，可在JAX编译函数中应用Triton内核，提高计算密集型任务效率。项目提供文档和示例，适合机器学习和科学计算领域的GPU计算优化需求。

tensorrtx - TensorRT深度学习网络实现库

TensorRT深度学习网络GPU加速YOLO系列模型转换Github开源项目

TensorRTx项目使用TensorRT API实现主流深度学习网络。它提供灵活构建、调试和学习TensorRT引擎的方法，支持YOLO、ResNet、MobileNet等多种模型。兼容TensorRT 7.x和8.x版本，并包含详细教程和常见问题解答，方便用户快速入门。

ktransformers - 体验前沿LLM推理优化的灵活框架

KTransformersLLM推理优化大型语言模型深度学习框架GPU加速Github开源项目

KTransformers是一个灵活的Python框架，通过高级内核优化和并行策略增强Transformers性能。框架支持单行代码注入优化模块，提供Transformers兼容接口、OpenAI和Ollama标准RESTful API及简化的ChatGPT风格Web UI。专注本地部署和异构计算优化，KTransformers集成Llamafile和Marlin内核，为LLM推理优化实验提供灵活平台。

WhisperFusion - WhisperFusion 低延迟高性能的实时AI语音交互系统

WhisperFusion实时语音转文字大语言模型TensorRT优化GPU加速Github开源项目

WhisperFusion是一个开源项目，结合WhisperLive和WhisperSpeech技术，集成Mistral大语言模型，实现实时语音转文本和智能对话。项目采用TensorRT引擎优化模型性能，使用torch.compile加速处理，在RTX 4090 GPU上实现低延迟对话。通过Docker Compose简化部署，方便开发者快速搭建AI语音交互系统。

TensorRT-LLM - NVIDIA开发的大型语言模型推理优化工具

TensorRT-LLM大语言模型GPU加速AI推理NVIDIAGithub开源项目

TensorRT-LLM是一个用于优化大型语言模型推理的开源工具。它提供Python API来定义模型和构建TensorRT引擎，支持多GPU和多节点部署。该工具集成了多种量化技术，如INT4/INT8权重量化和SmoothQuant，以提升性能和降低内存占用。TensorRT-LLM预置了多个常用模型，可根据需求进行修改和扩展。

exllama - 为现代GPU优化的快速内存高效Llama实现

ExLlamaAI模型GPU加速CUDA深度学习Github开源项目

ExLlama是一个基于Python/C++/CUDA的独立实现,针对4位GPTQ权重进行了优化,旨在提高现代GPU上的运行速度和内存效率。该项目支持NVIDIA 30系列及更新的GPU,可处理Llama、Koala和WizardLM等多种大型语言模型。ExLlama具备基准测试、聊天机器人示例和Web界面等功能,同时支持Docker部署。尽管仍在开发中,项目已展现出卓越的性能和效率。

wezterm - 高性能跨平台终端模拟器与多路复用工具

终端模拟器跨平台GPU加速RustWezTermGithub开源项目

WezTerm是一款开源的高性能终端工具，由Rust语言实现。它集成了终端模拟器和多路复用器功能，支持GPU加速渲染和跨平台使用。WezTerm提供现代化界面和丰富的自定义选项，适合开发者日常工作。项目托管于GitHub，提供完善的文档支持。用户可通过GitHub讨论区或Matrix聊天室获取帮助。

koboldcpp - 多功能AI文本生成软件支持GGML和GGUF模型

KoboldCppAI文本生成GGUF模型GPU加速API接口Github开源项目

KoboldCpp是一款功能丰富的AI文本生成软件，支持GGML和GGUF模型。它提供KoboldAI API、多种格式支持、Stable Diffusion图像生成和语音转文本等功能。软件特性包括持久故事、编辑工具、多种保存格式、记忆系统、世界信息和作者注释。KoboldCpp支持GPU加速以提升性能，并具有直观的用户界面。这款开源软件可在多个平台上运行，为用户提供了强大而灵活的AI文本生成解决方案。

flash-attention - 高效注意力机制加速深度学习模型训练

FlashAttentionCUDAPyTorchGPU加速注意力机制Github开源项目

FlashAttention是一种高效的注意力机制实现,通过IO感知算法和内存优化提升计算速度并降低内存消耗。它支持NVIDIA和AMD GPU,适用于多种深度学习框架。最新的FlashAttention-3版本针对H100 GPU进行了优化。该项目提供Python接口,可集成到现有模型中,有助于加速大规模深度学习模型的训练过程。

vs-mlrt - 多平台VapourSynth机器学习滤镜运行时集合

VapourSynthAI推理运行时GPU加速机器学习滤镜跨平台支持Github开源项目

vs-mlrt是一个跨平台VapourSynth机器学习滤镜运行时项目，支持x86 CPU、Intel、NVIDIA和AMD GPU。项目包含vsov、vsort、vstrt和vsncnn等多个运行时，并提供Python封装器vsmlrt.py，统一了不同后端的使用接口。用户可根据硬件选择合适的运行时，实现高效AI滤镜处理。

Warp - Rust开发的GPU加速终端提高开发效率的现代化工具

Warp终端RustGPU加速跨平台Github开源项目

Warp是一款基于Rust开发的现代终端应用，通过GPU加速技术实现高性能。目前为macOS和Linux用户提供公开测试版，致力于提升开发效率。除了速度优势，Warp还集成了AI助手和协作功能，并计划开源UI框架和部分客户端代码，为开发者提供更多可能性。

HVM - 实现高级语言大规模并行计算的开源工具

HVM2并行计算交互组合子编程语言编译GPU加速Github开源项目

HVM2是一个开源的大规模并行评估器，基于交互组合子理论。它可以将Python、Haskell等高级语言编译成能在GPU等并行硬件上高效运行的程序。作为HVM1的改进版，HVM2在简洁性、速度和正确性方面都有提升。项目提供低级IR语言用于描述HVM2网络，并支持编译为C和CUDA代码。对于需要高级语言接口的用户，可以使用配套的Bend项目。

notebooks-contrib - RAPIDS社区贡献的GPU加速数据科学笔记本库

RAPIDSGPU加速数据科学开源NVIDIAGithub开源项目

notebooks-contrib是RAPIDS社区维护的GPU加速数据科学笔记本库。它涵盖从入门到高级的多个主题，包括多GPU处理、深度学习和各领域应用。该项目提供教程、工作流示例和实用指南，同时鼓励社区贡献。用户可以找到丰富的学习资源，如官方文档、视频教程和部署指南，以便更好地利用RAPIDS进行GPU加速数据分析。

Cirrascale Cloud Services - 领先的多样化AI加速器云服务

AI工具AI创新云GPU加速深度学习云计算服务人工智能应用

Cirrascale Cloud Services提供多样化AI加速器云服务,包括NVIDIA GPU、AMD Instinct和Qualcomm AI 100。平台特色涵盖定制多GPU服务器、高吞吐量存储和低延迟网络,加速深度学习和机器学习工作负载。服务旨在优化AI工作流程,提供专业支持,促进AI应用的快速开发和部署。

SubtitleDog - 多语言视频字幕生成与翻译的AI解决方案

AI工具字幕生成器AI翻译GPU加速多语言支持隐私保护

SubtitleDog是一款AI驱动的视频字幕生成和翻译工具，支持100多种语言。它使用大语言模型提高翻译准确性，并通过GPU加速、人声分离和智能增强算法优化处理效率。该工具支持批量处理、字幕编辑，并保护用户隐私。SubtitleDog为视频制作者提供高效、准确且经济实惠的字幕解决方案。

Py-Boost - Python实现的GPU加速梯度提升决策树库

梯度提升GPU加速多输出训练ONNX兼容Python库Github开源项目

Py-Boost是一个Python实现的GPU加速梯度提升决策树库。该项目提供简洁接口，支持GPU训练和推理，易于定制。特色功能包括SketchBoost算法高效处理多输出任务，以及ONNX格式支持。Py-Boost为研究和开发人员提供了探索梯度提升方法的灵活工具，同时保持了较高的运行效率。

torch2trt - PyTorch模型转TensorRT加速工具

torch2trtTensorRTPyTorch模型转换GPU加速Github开源项目

torch2trt是一款将PyTorch模型转换为TensorRT的开源工具。它基于TensorRT Python API开发,具有简单易用和灵活可扩展的特点。用户通过单个函数调用即可完成模型转换,还支持自定义层转换器。该工具适配多种常用模型,并提供模型保存和加载功能。torch2trt能显著提升NVIDIA设备上的模型推理性能,适用于PyTorch模型推理加速场景。

warp - 用于高性能模拟和图形计算的Python框架

NVIDIA WarpPython框架高性能模拟图形编程GPU加速Github开源项目

Warp是NVIDIA开发的Python框架,用于高性能模拟和图形计算。它将Python函数编译为可在CPU或GPU上运行的高效内核代码。Warp为空间计算提供丰富原语,便于开发物理模拟、感知、机器人和几何处理程序。其可微分内核可用于机器学习。Warp支持多种操作系统和CPU架构,适用于科研和工业应用。

flash-attention-minimal - 简化Flash Attention的CUDA和PyTorch最小化实现

Flash AttentionCUDAPyTorch注意力机制GPU加速Github开源项目

flash-attention-minimal是一个开源项目，使用CUDA和PyTorch对Flash Attention进行最小化实现。项目仅用约100行代码完成前向传播，遵循原始论文符号表示，为CUDA初学者提供简明教程。通过与手动注意力机制的性能对比，展示了显著的速度提升。尽管目前存在一些限制，如缺少反向传播和固定块大小，但该项目为理解Flash Attention核心概念提供了有价值的参考资料。

diffusers.js - JavaScript扩散模型运行库支持GPU和WebGPU

diffusers.jsAI绘图GPU加速WebGPUONNXGithub开源项目

diffusers.js是一个JavaScript库，支持在GPU和WebGPU上运行扩散模型。它适用于浏览器和Node.js环境，具有简洁的API接口。该库经过性能优化，兼容多种模型，并提供实用示例。diffusers.js的开发过程中改进了onnx runtime、emscripten和WebAssembly，为AI图像生成领域贡献了重要工具。

cutlass-kernels - 针对大语言模型优化的高效CUDA库

CUTLASSFlashAttention-3GPU加速深度学习CUDAGithub开源项目

CUTLASS Kernels是一个针对大语言模型(LLM)优化的CUDA库，提供了FlashAttention-3的高效实现。该项目支持TF32模式，显著提升性能，主要用于加速LLM的训练和推理过程。开发者可以轻松集成这些核心，为构建高性能AI应用提供强大的基础支持。CUTLASS Kernels需要配合NVIDIA的CUTLASS项目使用，为LLM开发提供了关键的性能优化工具。

AutoAWQ - 面向大型语言模型的高效4位量化框架

AutoAWQ量化推理GPU加速大语言模型Github开源项目

AutoAWQ是一个专门针对大型语言模型的4位量化框架，通过实现激活感知权重量化算法，可将模型速度提升3倍，同时减少3倍内存需求。该框架支持Mistral、LLaVa、Mixtral等多种模型，具备多GPU支持、CUDA和ROCm兼容性以及PEFT兼容训练等特性。AutoAWQ为提升大型语言模型的推理效率提供了有力工具。

thundersvm - GPU加速的开源支持向量机库

ThunderSVM机器学习GPU加速支持向量机并行计算Github开源项目

ThunderSVM是一个开源的支持向量机库，通过GPU和多核CPU加速计算，显著提高SVM训练效率。该库实现了LibSVM的全部功能，支持一类SVM、SVC、SVR和概率SVM等多种模型。ThunderSVM提供Python、R、Matlab和Ruby等多种编程语言接口，跨平台兼容Linux、Windows和MacOS。采用与LibSVM一致的命令行参数，便于用户快速上手。作为高效的SVM实现，ThunderSVM为数据科学家和机器学习研究者提供了强大的工具支持。在某些大规模数据集上，ThunderSVM相比传统SVM实现可实现10-100倍的加速，已被多个知名机器学习项目采用。

tensorflow-directml-plugin - DirectML驱动的TensorFlow硬件加速插件

TensorFlowDirectMLGPU加速机器学习WindowsGithub开源项目

TensorFlow-DirectML-Plugin是基于DirectML的TensorFlow插件，为Windows 10和WSL提供跨厂商硬件加速。该插件利用Pluggable Device API，支持在DirectX 12兼容硬件上训练和推理机器学习模型。目前处于早期开发阶段，兼容Python 3.8-3.11，支持AMD、Intel和NVIDIA主流GPU。该插件旨在为Windows平台的TensorFlow用户提供更多硬件加速选择。

AITemplate - 开源高性能深度学习推理框架

AITemplate深度神经网络GPU加速推理服务模型转换Github开源项目

AITemplate是一个开源Python框架，能将深度学习模型转换为CUDA或HIP C++代码，实现高效推理。它支持NVIDIA和AMD GPU，提供接近理论峰值的fp16性能。该框架特点包括独立运行无需第三方库、独特的算子融合技术、与PyTorch兼容以及易于扩展。AITemplate支持ResNet、BERT和Stable Diffusion等多种主流模型。

nnabla-rl - 深度强化学习库，基于Neural Network Libraries构建

nnablaRL深度强化学习神经网络库PythonGPU加速Github开源项目

nnabla-rl是基于Neural Network Libraries构建的深度强化学习库，适用于研究、开发和生产环境。该库提供简洁的Python API，集成多种经典和前沿强化学习算法，实现在线与离线训练的灵活切换。nnabla-rl支持通过nnabla-browser可视化训练过程，安装便捷，兼容GPU加速，并提供交互式示例便于快速上手。

curv - 函数式编程创造数学艺术的开源语言

Curv函数表示GPU加速3D打印几何建模Github开源项目

Curv是一种开源的函数式编程语言，专注于数学艺术创作。它支持2D和3D几何建模、全彩色、动画和3D打印。Curv易于上手，适合初学者，同时为专家提供F-Rep编程能力。该语言采用GPU加速渲染，可导出高质量3D打印网格。Curv支持无限细节和复杂的数学描述形状，为艺术创作提供了灵活的工具。

contour - 现代化跨平台终端模拟器提供GPU加速和丰富功能

Contour终端模拟器GPU加速跨平台Unicode支持Github开源项目

Contour是一款现代化的跨平台终端模拟器，支持主流操作系统。它提供GPU加速渲染、Unicode和emoji支持、字体连字等功能。Contour还具有垂直行标记、Vi样式输入模式、运行时配置重载等特性。该项目支持多种安装方式，适合追求高性能和丰富功能的用户。

SCAMP - 高效矩阵剖面计算框架

SCAMP矩阵剖面时间序列分析GPU加速Python模块Github开源项目

作为开源项目，SCAMP在时间序列分析领域表现突出。该框架支持GPU和CPU计算，可处理大规模数据集并执行AB连接。SCAMP提供多种矩阵剖面类型，支持分布式运算，并通过Python模块、Docker容器和conda-forge实现简便集成。其优势还包括全面的测试覆盖、性能基准以及对实际数据中缺失值和平坦区域的有效处理。

benchmarks - 主流机器学习库全面性能基准测试

CatBoost基准测试机器学习性能比较GPU加速Github开源项目

Benchmarks是GitHub上的开源项目，致力于多个主流机器学习库的性能对比。该项目涵盖CatBoost、XGBoost、LightGBM和H2O等库，对比范围包括二元分类、训练速度、模型评估、排序任务和SHAP值计算。此外还提供CPU与GPU性能对比和Kaggle竞赛数据集上的质量评估。这些全面的基准测试为机器学习从业者提供了客观的性能参考数据。

相关文章

Article Cover

PyTorch:开源机器学习框架的领军者

Article Cover

NVIDIA DALI: 加速深度学习的GPU数据处理库

Article Cover

PowerInfer: 消费级GPU上的高速大语言模型推理引擎

Article Cover

llama2-webui: 本地部署Llama 2模型的开源UI工具

Article Cover

vits-simple-api: 一个简单而强大的语音合成API

Article Cover

NeMo-Curator: NVIDIA打造的大规模数据预处理与策划工具包

Article Cover

OneDiff: 一行代码加速扩散模型的革命性库

Article Cover

IQA-PyTorch: 全面的图像质量评估工具箱

Article Cover

视频硬字幕提取神器:Video-subtitle-extractor全面解析

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号