#GPU加速
HugeCTR - GPU加速的大规模深度学习推荐系统框架
HugeCTRGPU加速推荐系统深度学习嵌入Github开源项目
HugeCTR是专为大规模深度学习模型设计的GPU加速推荐系统框架,支持高效训练和推理。框架在MLPerf等基准测试中性能卓越,提供直观的API接口,并具备大规模嵌入等核心功能。HugeCTR实现了模型并行训练、混合精度计算、嵌入缓存等先进特性,可高效部署超大规模嵌入的推荐模型。
torchmd-net - 神经网络势能模型的高效训练与实现框架
TorchMD-NET神经网络势能分子动力学PyTorchGPU加速Github开源项目
TorchMD-NET是一个先进的神经网络势能(NNP)模型框架,提供高效快速的NNP实现。该框架与ACEMD、OpenMM和TorchMD等GPU加速分子动力学代码集成,并将NNP作为PyTorch模块提供。项目支持等变Transformer、Transformer、图神经网络和TensorNet等多种架构,可通过conda-forge安装或从源代码构建。TorchMD-NET具有灵活的训练配置选项,支持自定义数据集和多节点训练,并提供预训练模型。
marker - 高效准确的PDF转Markdown转换器 支持多语言和多类文档
PDF转换Markdown深度学习OCRGPU加速Github开源项目
Marker是一款高效的PDF转Markdown转换工具,支持多语言和多类文档,特别适合处理书籍和科学论文。该工具能自动清理页眉页脚,格式化表格和代码,提取图像,并将方程转为LaTeX。Marker可在GPU、CPU或MPS上运行,具有优异的性能和准确度。其独特的深度学习模型流程确保了转换的速度和质量。
faiss - 快速向量搜索与聚类库
Faiss向量相似度搜索聚类GPU加速高维向量Github开源项目
Faiss是一个开源的高性能向量搜索和聚类库,专为大规模数据集设计。它支持多种索引方法,能够在搜索速度、结果质量和内存使用之间实现平衡。Faiss适用于推荐系统、图像检索等机器学习应用,可处理从小型到超大规模的向量数据。该库由Meta AI研究团队开发,提供C++和Python接口,支持CPU和GPU计算,为高维向量处理提供了高效解决方案。
distrifuser - 高效分布式并行推理助力高分辨率图像生成
DistriFusiondiffusion模型并行推理高分辨率GPU加速Github开源项目
DistriFusion是一种用于高分辨率扩散模型的分布式并行推理算法。该方法无需额外训练,通过多GPU协同工作加速推理过程,同时保持图像质量。其创新的补丁交互技术解决了传统方法的碎片化问题,在高分辨率图像生成任务中显著提升了性能。该项目已在CVPR 2024被评为亮点工作,并开源了相关代码。
fastllm - 纯C++实现的跨平台大语言模型推理库
fastllm大模型推理多平台c++实现GPU加速Github开源项目
fastllm是一个纯C++实现的大语言模型推理库,无第三方依赖,支持多平台部署。这个开源项目具有快速的推理速度,支持多种模型格式,可实现多卡部署和流式输出。fastllm兼容ChatGLM、Qwen、LLAMA等多种模型,提供Python接口和自定义模型结构功能。该项目适用于需要高效、灵活部署大语言模型的场景。
jax-triton - JAX与Triton集成实现GPU计算加速
JAXTritonjax-tritonCUDAGPU加速Github开源项目
jax-triton项目实现了JAX和Triton的集成,让开发者能在JAX中使用Triton的GPU计算功能。通过triton_call函数,可在JAX编译函数中应用Triton内核,提高计算密集型任务效率。项目提供文档和示例,适合机器学习和科学计算领域的GPU计算优化需求。
tensorrtx - TensorRT深度学习网络实现库
TensorRT深度学习网络GPU加速YOLO系列模型转换Github开源项目
TensorRTx项目使用TensorRT API实现主流深度学习网络。它提供灵活构建、调试和学习TensorRT引擎的方法,支持YOLO、ResNet、MobileNet等多种模型。兼容TensorRT 7.x和8.x版本,并包含详细教程和常见问题解答,方便用户快速入门。
ktransformers - 体验前沿LLM推理优化的灵活框架
KTransformersLLM推理优化大型语言模型深度学习框架GPU加速Github开源项目
KTransformers是一个灵活的Python框架,通过高级内核优化和并行策略增强Transformers性能。框架支持单行代码注入优化模块,提供Transformers兼容接口、OpenAI和Ollama标准RESTful API及简化的ChatGPT风格Web UI。专注本地部署和异构计算优化,KTransformers集成Llamafile和Marlin内核,为LLM推理优化实验提供灵活平台。
WhisperFusion - WhisperFusion 低延迟高性能的实时AI语音交互系统
WhisperFusion实时语音转文字大语言模型TensorRT优化GPU加速Github开源项目
WhisperFusion是一个开源项目,结合WhisperLive和WhisperSpeech技术,集成Mistral大语言模型,实现实时语音转文本和智能对话。项目采用TensorRT引擎优化模型性能,使用torch.compile加速处理,在RTX 4090 GPU上实现低延迟对话。通过Docker Compose简化部署,方便开发者快速搭建AI语音交互系统。
TensorRT-LLM - NVIDIA开发的大型语言模型推理优化工具
TensorRT-LLM大语言模型GPU加速AI推理NVIDIAGithub开源项目
TensorRT-LLM是一个用于优化大型语言模型推理的开源工具。它提供Python API来定义模型和构建TensorRT引擎,支持多GPU和多节点部署。该工具集成了多种量化技术,如INT4/INT8权重量化和SmoothQuant,以提升性能和降低内存占用。TensorRT-LLM预置了多个常用模型,可根据需求进行修改和扩展。
exllama - 为现代GPU优化的快速内存高效Llama实现
ExLlamaAI模型GPU加速CUDA深度学习Github开源项目
ExLlama是一个基于Python/C++/CUDA的独立实现,针对4位GPTQ权重进行了优化,旨在提高现代GPU上的运行速度和内存效率。该项目支持NVIDIA 30系列及更新的GPU,可处理Llama、Koala和WizardLM等多种大型语言模型。ExLlama具备基准测试、聊天机器人示例和Web界面等功能,同时支持Docker部署。尽管仍在开发中,项目已展现出卓越的性能和效率。
wezterm - 高性能跨平台终端模拟器与多路复用工具
终端模拟器跨平台GPU加速RustWezTermGithub开源项目
WezTerm是一款开源的高性能终端工具,由Rust语言实现。它集成了终端模拟器和多路复用器功能,支持GPU加速渲染和跨平台使用。WezTerm提供现代化界面和丰富的自定义选项,适合开发者日常工作。项目托管于GitHub,提供完善的文档支持。用户可通过GitHub讨论区或Matrix聊天室获取帮助。
koboldcpp - 多功能AI文本生成软件 支持GGML和GGUF模型
KoboldCppAI文本生成GGUF模型GPU加速API接口Github开源项目
KoboldCpp是一款功能丰富的AI文本生成软件,支持GGML和GGUF模型。它提供KoboldAI API、多种格式支持、Stable Diffusion图像生成和语音转文本等功能。软件特性包括持久故事、编辑工具、多种保存格式、记忆系统、世界信息和作者注释。KoboldCpp支持GPU加速以提升性能,并具有直观的用户界面。这款开源软件可在多个平台上运行,为用户提供了强大而灵活的AI文本生成解决方案。
flash-attention - 高效注意力机制加速深度学习模型训练
FlashAttentionCUDAPyTorchGPU加速注意力机制Github开源项目
FlashAttention是一种高效的注意力机制实现,通过IO感知算法和内存优化提升计算速度并降低内存消耗。它支持NVIDIA和AMD GPU,适用于多种深度学习框架。最新的FlashAttention-3版本针对H100 GPU进行了优化。该项目提供Python接口,可集成到现有模型中,有助于加速大规模深度学习模型的训练过程。
vs-mlrt - 多平台VapourSynth机器学习滤镜运行时集合
VapourSynthAI推理运行时GPU加速机器学习滤镜跨平台支持Github开源项目
vs-mlrt是一个跨平台VapourSynth机器学习滤镜运行时项目,支持x86 CPU、Intel、NVIDIA和AMD GPU。项目包含vsov、vsort、vstrt和vsncnn等多个运行时,并提供Python封装器vsmlrt.py,统一了不同后端的使用接口。用户可根据硬件选择合适的运行时,实现高效AI滤镜处理。
Warp - Rust开发的GPU加速终端 提高开发效率的现代化工具
Warp终端RustGPU加速跨平台Github开源项目
Warp是一款基于Rust开发的现代终端应用,通过GPU加速技术实现高性能。目前为macOS和Linux用户提供公开测试版,致力于提升开发效率。除了速度优势,Warp还集成了AI助手和协作功能,并计划开源UI框架和部分客户端代码,为开发者提供更多可能性。
HVM - 实现高级语言大规模并行计算的开源工具
HVM2并行计算交互组合子编程语言编译GPU加速Github开源项目
HVM2是一个开源的大规模并行评估器,基于交互组合子理论。它可以将Python、Haskell等高级语言编译成能在GPU等并行硬件上高效运行的程序。作为HVM1的改进版,HVM2在简洁性、速度和正确性方面都有提升。项目提供低级IR语言用于描述HVM2网络,并支持编译为C和CUDA代码。对于需要高级语言接口的用户,可以使用配套的Bend项目。
notebooks-contrib - RAPIDS社区贡献的GPU加速数据科学笔记本库
RAPIDSGPU加速数据科学开源NVIDIAGithub开源项目
notebooks-contrib是RAPIDS社区维护的GPU加速数据科学笔记本库。它涵盖从入门到高级的多个主题,包括多GPU处理、深度学习和各领域应用。该项目提供教程、工作流示例和实用指南,同时鼓励社区贡献。用户可以找到丰富的学习资源,如官方文档、视频教程和部署指南,以便更好地利用RAPIDS进行GPU加速数据分析。
Cirrascale Cloud Services - 领先的多样化AI加速器云服务
AI工具AI创新云GPU加速深度学习云计算服务人工智能应用
Cirrascale Cloud Services提供多样化AI加速器云服务,包括NVIDIA GPU、AMD Instinct和Qualcomm AI 100。平台特色涵盖定制多GPU服务器、高吞吐量存储和低延迟网络,加速深度学习和机器学习工作负载。服务旨在优化AI工作流程,提供专业支持,促进AI应用的快速开发和部署。
SubtitleDog - 多语言视频字幕生成与翻译的AI解决方案
AI工具字幕生成器AI翻译GPU加速多语言支持隐私保护
SubtitleDog是一款AI驱动的视频字幕生成和翻译工具,支持100多种语言。它使用大语言模型提高翻译准确性,并通过GPU加速、人声分离和智能增强算法优化处理效率。该工具支持批量处理、字幕编辑,并保护用户隐私。SubtitleDog为视频制作者提供高效、准确且经济实惠的字幕解决方案。
Py-Boost - Python实现的GPU加速梯度提升决策树库
梯度提升GPU加速多输出训练ONNX兼容Python库Github开源项目
Py-Boost是一个Python实现的GPU加速梯度提升决策树库。该项目提供简洁接口,支持GPU训练和推理,易于定制。特色功能包括SketchBoost算法高效处理多输出任务,以及ONNX格式支持。Py-Boost为研究和开发人员提供了探索梯度提升方法的灵活工具,同时保持了较高的运行效率。
torch2trt - PyTorch模型转TensorRT加速工具
torch2trtTensorRTPyTorch模型转换GPU加速Github开源项目
torch2trt是一款将PyTorch模型转换为TensorRT的开源工具。它基于TensorRT Python API开发,具有简单易用和灵活可扩展的特点。用户通过单个函数调用即可完成模型转换,还支持自定义层转换器。该工具适配多种常用模型,并提供模型保存和加载功能。torch2trt能显著提升NVIDIA设备上的模型推理性能,适用于PyTorch模型推理加速场景。
warp - 用于高性能模拟和图形计算的Python框架
NVIDIA WarpPython框架高性能模拟图形编程GPU加速Github开源项目
Warp是NVIDIA开发的Python框架,用于高性能模拟和图形计算。它将Python函数编译为可在CPU或GPU上运行的高效内核代码。Warp为空间计算提供丰富原语,便于开发物理模拟、感知、机器人和几何处理程序。其可微分内核可用于机器学习。Warp支持多种操作系统和CPU架构,适用于科研和工业应用。
flash-attention-minimal - 简化Flash Attention的CUDA和PyTorch最小化实现
Flash AttentionCUDAPyTorch注意力机制GPU加速Github开源项目
flash-attention-minimal是一个开源项目,使用CUDA和PyTorch对Flash Attention进行最小化实现。项目仅用约100行代码完成前向传播,遵循原始论文符号表示,为CUDA初学者提供简明教程。通过与手动注意力机制的性能对比,展示了显著的速度提升。尽管目前存在一些限制,如缺少反向传播和固定块大小,但该项目为理解Flash Attention核心概念提供了有价值的参考资料。
diffusers.js - JavaScript扩散模型运行库支持GPU和WebGPU
diffusers.jsAI绘图GPU加速WebGPUONNXGithub开源项目
diffusers.js是一个JavaScript库,支持在GPU和WebGPU上运行扩散模型。它适用于浏览器和Node.js环境,具有简洁的API接口。该库经过性能优化,兼容多种模型,并提供实用示例。diffusers.js的开发过程中改进了onnx runtime、emscripten和WebAssembly,为AI图像生成领域贡献了重要工具。
cutlass-kernels - 针对大语言模型优化的高效CUDA库
CUTLASSFlashAttention-3GPU加速深度学习CUDAGithub开源项目
CUTLASS Kernels是一个针对大语言模型(LLM)优化的CUDA库,提供了FlashAttention-3的高效实现。该项目支持TF32模式,显著提升性能,主要用于加速LLM的训练和推理过程。开发者可以轻松集成这些核心,为构建高性能AI应用提供强大的基础支持。CUTLASS Kernels需要配合NVIDIA的CUTLASS项目使用,为LLM开发提供了关键的性能优化工具。
AutoAWQ - 面向大型语言模型的高效4位量化框架
AutoAWQ量化推理GPU加速大语言模型Github开源项目
AutoAWQ是一个专门针对大型语言模型的4位量化框架,通过实现激活感知权重量化算法,可将模型速度提升3倍,同时减少3倍内存需求。该框架支持Mistral、LLaVa、Mixtral等多种模型,具备多GPU支持、CUDA和ROCm兼容性以及PEFT兼容训练等特性。AutoAWQ为提升大型语言模型的推理效率提供了有力工具。
thundersvm - GPU加速的开源支持向量机库
ThunderSVM机器学习GPU加速支持向量机并行计算Github开源项目
ThunderSVM是一个开源的支持向量机库,通过GPU和多核CPU加速计算,显著提高SVM训练效率。该库实现了LibSVM的全部功能,支持一类SVM、SVC、SVR和概率SVM等多种模型。ThunderSVM提供Python、R、Matlab和Ruby等多种编程语言接口,跨平台兼容Linux、Windows和MacOS。采用与LibSVM一致的命令行参数,便于用户快速上手。作为高效的SVM实现,ThunderSVM为数据科学家和机器学习研究者提供了强大的工具支持。在某些大规模数据集上,ThunderSVM相比传统SVM实现可实现10-100倍的加速,已被多个知名机器学习项目采用。
tensorflow-directml-plugin - DirectML驱动的TensorFlow硬件加速插件
TensorFlowDirectMLGPU加速机器学习WindowsGithub开源项目
TensorFlow-DirectML-Plugin是基于DirectML的TensorFlow插件,为Windows 10和WSL提供跨厂商硬件加速。该插件利用Pluggable Device API,支持在DirectX 12兼容硬件上训练和推理机器学习模型。目前处于早期开发阶段,兼容Python 3.8-3.11,支持AMD、Intel和NVIDIA主流GPU。该插件旨在为Windows平台的TensorFlow用户提供更多硬件加速选择。
AITemplate - 开源高性能深度学习推理框架
AITemplate深度神经网络GPU加速推理服务模型转换Github开源项目
AITemplate是一个开源Python框架,能将深度学习模型转换为CUDA或HIP C++代码,实现高效推理。它支持NVIDIA和AMD GPU,提供接近理论峰值的fp16性能。该框架特点包括独立运行无需第三方库、独特的算子融合技术、与PyTorch兼容以及易于扩展。AITemplate支持ResNet、BERT和Stable Diffusion等多种主流模型。
nnabla-rl - 深度强化学习库,基于Neural Network Libraries构建
nnablaRL深度强化学习神经网络库PythonGPU加速Github开源项目
nnabla-rl是基于Neural Network Libraries构建的深度强化学习库,适用于研究、开发和生产环境。该库提供简洁的Python API,集成多种经典和前沿强化学习算法,实现在线与离线训练的灵活切换。nnabla-rl支持通过nnabla-browser可视化训练过程,安装便捷,兼容GPU加速,并提供交互式示例便于快速上手。
curv - 函数式编程创造数学艺术的开源语言
Curv函数表示GPU加速3D打印几何建模Github开源项目
Curv是一种开源的函数式编程语言,专注于数学艺术创作。它支持2D和3D几何建模、全彩色、动画和3D打印。Curv易于上手,适合初学者,同时为专家提供F-Rep编程能力。该语言采用GPU加速渲染,可导出高质量3D打印网格。Curv支持无限细节和复杂的数学描述形状,为艺术创作提供了灵活的工具。
contour - 现代化跨平台终端模拟器提供GPU加速和丰富功能
Contour终端模拟器GPU加速跨平台Unicode支持Github开源项目
Contour是一款现代化的跨平台终端模拟器,支持主流操作系统。它提供GPU加速渲染、Unicode和emoji支持、字体连字等功能。Contour还具有垂直行标记、Vi样式输入模式、运行时配置重载等特性。该项目支持多种安装方式,适合追求高性能和丰富功能的用户。
SCAMP - 高效矩阵剖面计算框架
SCAMP矩阵剖面时间序列分析GPU加速Python模块Github开源项目
作为开源项目,SCAMP在时间序列分析领域表现突出。该框架支持GPU和CPU计算,可处理大规模数据集并执行AB连接。SCAMP提供多种矩阵剖面类型,支持分布式运算,并通过Python模块、Docker容器和conda-forge实现简便集成。其优势还包括全面的测试覆盖、性能基准以及对实际数据中缺失值和平坦区域的有效处理。
benchmarks - 主流机器学习库全面性能基准测试
CatBoost基准测试机器学习性能比较GPU加速Github开源项目
Benchmarks是GitHub上的开源项目,致力于多个主流机器学习库的性能对比。该项目涵盖CatBoost、XGBoost、LightGBM和H2O等库,对比范围包括二元分类、训练速度、模型评估、排序任务和SHAP值计算。此外还提供CPU与GPU性能对比和Kaggle竞赛数据集上的质量评估。这些全面的基准测试为机器学习从业者提供了客观的性能参考数据。
相关文章
PyTorch:开源机器学习框架的领军者
2024年08月30日
NVIDIA DALI: 加速深度学习的GPU数据处理库
2024年08月30日
PowerInfer: 消费级GPU上的高速大语言模型推理引擎
2024年08月30日
llama2-webui: 本地部署Llama 2模型的开源UI工具
2024年08月30日
vits-simple-api: 一个简单而强大的语音合成API
2024年08月30日
NeMo-Curator: NVIDIA打造的大规模数据预处理与策划工具包
2024年08月31日
OneDiff: 一行代码加速扩散模型的革命性库
2024年09月02日
IQA-PyTorch: 全面的图像质量评估工具箱
2024年09月04日
视频硬字幕提取神器:Video-subtitle-extractor全面解析
2024年08月30日