#GPU

llama-lora-fine-tuning - 单GPU微调LLaMA模型的高效方法
LLaMA微调GPUVicuna语料库Github开源项目
本项目展示了在单个16G GPU上微调vicuna-7b模型的方法。通过采用LoRA、半精度模型和8位加载等技术,有效降低了内存需求。项目详细说明了环境配置、模型准备、语料处理和微调过程,并提供P100和A100的性能数据。这种方法使研究者和开发者能在有限硬件资源下进行大型语言模型的定制化训练。
llm-numbers - LLM开发者必知的关键数据和实用见解
LLMGPUAIOpenAIRayGithub开源项目
该项目汇集了LLM开发中的重要数据和见解,包括提示工程、模型训练和GPU内存管理等方面。内容涵盖成本比率、训练费用和GPU内存要求,为开发者提供决策参考和资源优化指导。这些信息有助于快速评估和理解LLM开发的关键因素,是大语言模型开发者的实用参考资料。
Inferno - SwiftUI开源GPU图形特效库
SwiftUIInfernoMetalshaderGPUGithub开源项目
Inferno是一个为SwiftUI设计的开源Fragment Shader集合。它提供水波纹、黑洞、闪光等GPU加速视觉效果,代码易读易懂。项目包含iOS和macOS示例应用。开发者只需复制相关Metal文件即可使用这些特效,简化SwiftUI应用的视觉设计。适用于iOS 17.0+和macOS 14.0+。
qulacs - 快速高效的量子电路模拟库 适用于大规模复杂和参数化电路
Qulacs量子电路模拟PythonC++GPUGithub开源项目
Qulacs是一个Python/C++开发的高性能量子电路模拟库,专注于大规模、含噪声和参数化量子电路的快速模拟。它采用并行化C/C++后端,支持噪声模型、参数化量子门和电路优化。Qulacs提供GPU加速功能和丰富的量子计算研究工具。在多项基准测试中,Qulacs展现出优秀的性能,适用于广泛的量子计算研究领域。
tiny-gpu - 简化GPU实现深入解析并行计算原理
GPU架构并行化内存指令集Github开源项目
tiny-gpu是一个精简的GPU实现项目,旨在帮助学习者理解GPU工作原理。该项目聚焦通用GPU和机器学习加速器的核心原理,包括架构设计、SIMD并行化和内存管理。通过Verilog实现、架构文档和矩阵运算示例,tiny-gpu简化了复杂概念,使学习者能从底层理解现代硬件加速器的关键要素。
FluidStack - 为AI工程师提供即时GPU资源和全托管云服务
AI工具GPUAIFluidStack云计算英伟达
FluidStack为AI工程师提供GPU超级计算平台,支持即时访问包括A100、H100在内的最新Nvidia GPU资源,可扩展至100多个GPU。平台提供全面托管的AI云服务,让用户专注于模型训练。与大型云服务商相比,FluidStack可节省70%费用,并为快速发展的AI实验室提供24/7专业支持和可靠计算能力。
Anyscale - 基于Ray的AI和Python分布式计算平台
AI工具AnyscaleAI平台分布式计算RayGPU
Anyscale是基于Ray开源项目的AI应用平台,提供从笔记本到数千GPU的分布式计算能力。支持LLM推理、微调、稳定扩散等AI工作负载,具备性能优化、成本控制和企业级安全功能。开发者可通过Anyscale快速构建和部署各类AI应用。
NVIDIA - GPU加速计算和AI技术的全球创新者
AI工具NVIDIAGPUAI深度学习数据中心
NVIDIA是GPU加速计算技术的开创者,推动了AI、高性能计算、图形设计等领域的创新。公司提供全面的硬件、软件和云服务解决方案,支持各行业数字化转型。NVIDIA技术广泛应用于游戏、设计、数据中心和边缘计算,助力解决复杂挑战,以AI和数字孪生技术推动产业变革。
Sink In - 高效多样的Stable Diffusion模型聚合平台
AI工具Stable DiffusionAI绘图模型图像生成GPU
Sink In平台聚合多种Stable Diffusion模型,包括MeinaHentai和majicMIX realistic等热门选项。利用高性能GPU,以低成本快速生成各类AI图像。服务可靠性达99.9%,适用于个人创作和商业应用等多种场景,能够满足多样化的AI图像生成需求。
Denvr Dataworks - 专业GPU云平台,加速AI训练与推理
AI工具Denvr CloudAIGPUNVIDIA云计算
Denvr Dataworks提供专为AI优化的云计算服务,包括高性能GPU资源、按需或专用超级计算能力,以及主流AI框架的一键部署。平台采用NVIDIA和Intel最新GPU架构,确保卓越性能和可扩展性。通过简化AI开发和运营流程,Denvr Dataworks为各类AI项目提供高效、灵活的云计算解决方案。
cuvs - 高性能GPU向量搜索与聚类框架
cuVSGPU向量搜索聚类算法RAPIDSGithub开源项目
cuVS是一个开源的GPU向量搜索和聚类框架,专注于提供高性能的近似最近邻搜索和聚类功能。它支持C、C++、Python和Rust等多种编程语言,实现了CAGRA等先进算法。开发者可以直接使用cuVS,也可将其集成到其他系统中,从而在向量相似度搜索和聚类任务中充分利用GPU加速能力。
ringattention - 创新注意力机制大幅提升Transformer上下文处理能力
Ring AttentionBlockwise TransformersGPUTPUJaxGithub开源项目
ringattention项目实现Ring Attention和Blockwise Transformers技术,显著提升Transformer模型上下文处理能力。通过跨设备分布式计算和通信重叠,模型可处理长达数千万个token的序列,无需增加开销。该技术支持causal block和cache index,为大规模语言模型训练提供高效解决方案,特别适用于超长上下文处理场景。
upp - AMD Radeon GPU PowerPlay表解析与优化工具
UPPPowerPlayAMD RadeonGPU显卡调教Github开源项目
UPP是一款专业的AMD Radeon GPU PowerPlay表解析工具,支持多种GPU系列。它可从VBIOS ROM提取数据,让用户查看和调整功耗限制、频率等关键参数。UPP提供数据导出、参数获取和设置等多种功能,为GPU性能优化提供灵活解决方案。然而,用户在使用时需谨慎,以避免对显卡造成潜在损害。这款开源工具为精确控制GPU性能和功耗提供了强大支持。
tensorrtllm_backend - TensorRT-LLM后端 适用于Triton的大语言模型推理引擎
TensorRT-LLMTriton推理服务GPU深度学习Github开源项目
TensorRT-LLM Backend是Triton Inference Server的专用后端,用于部署和服务TensorRT-LLM模型。它集成了in-flight batching和paged attention等先进特性,显著提升了大语言模型的推理效率。通过简洁的接口设计,此后端使TensorRT-LLM模型能无缝集成到Triton服务中,为用户提供高性能、可扩展的AI推理解决方案。
open-gpu-kernel-modules - NVIDIA驱动程序fork版实现RTX 4090 GPU间直接通信
NVIDIAP2P支持GPULinux驱动PCIeGithub开源项目
这个项目是NVIDIA驱动程序的一个分支,为RTX 4090显卡添加了点对点(P2P)通信支持。通过直接利用PCIe总线进行GPU间数据传输,该方案绕过了传统的MAILBOXP2P接口。项目成功实现了P2P功能,并与NCCL兼容,可显著提高多GPU系统性能。这种创新方法遵循PCIe规范,有望被纳入上游驱动程序,为NVIDIA GPU用户提供更高效的计算能力。
Reinvent - 分子设计与优化的开源人工智能工具
REINVENT机器学习分子设计PythonGPUGithub开源项目
REINVENT 3.2是一个开源的分子设计与优化工具,结合深度学习和强化学习技术实现分子生成和优化。该基于Python的项目支持多种运行模式,使用JSON配置文件控制,并利用CUDA加速的GPU进行计算。REINVENT 3.2提供详细的安装指南、系统要求和使用教程,支持Jupyter notebook交互式使用,便于研究人员快速上手和实验。此外,项目还包含单元测试框架,可广泛应用于药物研发和材料设计等领域的分子设计任务。
dlprimitives - 开源跨平台深度学习与推理工具库
深度学习OpenCLGPU跨平台ONNXGithub开源项目
DLPrimitives是一个开源项目,旨在提供跨平台的OpenCL深度学习和推理工具。该项目创建了支持多种GPU架构的深度学习原语库和高效推理库。DLPrimitives的目标包括开发简约的深度学习框架,并与PyTorch、TensorFlow等主流框架集成,使OpenCL API在深度学习领域得到广泛应用。目前,DLPrimitives已支持多种神经网络模型,并在AMD、Intel、NVIDIA等多种GPU上进行了测试。
nnAudio - 基于PyTorch的快速GPU音频处理工具箱
nnAudio音频处理PyTorch频谱图GPUGithub开源项目
nnAudio是一款基于PyTorch的音频处理工具箱,利用卷积神经网络实现实时频谱图生成和傅里叶核心训练。它具备跨平台兼容性、可训练性和可微分性,支持STFT、梅尔频谱、MFCC、CQT等多种音频处理功能。相比传统工具,nnAudio在GPU上提供更高效的音频分析和处理方案。
rust-llama.cpp - Rust语言下的LLaMA模型绑定库
RustLLama.cpp绑定模型GPUGithub开源项目
rust-llama.cpp是一个开源项目,为LLaMA.cpp提供Rust语言绑定。这个库使开发者能在Rust环境中集成和使用LLaMA大语言模型。项目支持cuBLAS、OpenBLAS和OpenCL等硬件加速选项,并已实现GPU(Metal)支持。通过简洁的API接口,开发者可以方便地加载模型和生成文本。rust-llama.cpp还支持GGUF格式,为Rust开发者提供了一个功能全面的LLaMA模型集成工具。
torchquad - 基于GPU加速的开源数值积分框架
torchquad数值积分GPUPyTorch机器学习Github开源项目
torchquad是一个开源的高性能数值积分框架,支持PyTorch、JAX和Tensorflow等多个后端。该框架针对GPU进行了优化,能有效处理高维积分问题,并在GPU上展现出优异的扩展性。torchquad提供多种积分方法,支持自动微分,适用于机器学习和科学计算等领域。其简洁的API设计使研究人员和开发者能够高效地完成复杂的数值积分任务。
cudf - 基于GPU的高性能DataFrame库 实现快速数据处理与分析
cuDFGPU数据处理RAPIDSpandasGithub开源项目
cuDF是一个基于GPU的DataFrame库,提供数据加载、连接、聚合和过滤等功能。该库利用libcudf和Apache Arrow列式格式,为开发者提供GPU加速的pandas兼容API。cuDF既可以直接使用,也可以作为pandas的无代码修改加速器,完全支持pandas API,在可能的情况下使用GPU运算,必要时回退到pandas。这使得cuDF在处理大规模数据时表现出色,适合各类数据科学和机器学习项目。
TinyLlama-1.1B-step-50K-105b - 紧凑型1.1B参数模型的高效预训练项目
Huggingface训练TinyLlama模型GPU开源项目Github令牌
TinyLlama是一个旨在高效预训练1.1B参数模型的项目,使用3万亿个token,计划在90天内完成。其架构和tokenizer与Llama 2相同,适用于多种需要低计算和内存需求的应用。该项目的中期里程碑在50K步和105B tokens,成果显著。利用16块A100-40G GPU进行优化训练,提升效率并节省资源。TinyLlama与多个开源项目兼容,便于通过transformers库进行集成。更多详情可查阅TinyLlama的GitHub页面。
Meta-Llama-3.1-8B-Instruct-awq-4bit - 高效4位量化的大型指令模型 适用GPU推理
模型量化GithubLlama 3.1开源项目Huggingface自然语言处理GPUAutoAWQ
Meta-Llama-3.1-8B-Instruct模型的4位量化版本,采用AutoAWQ技术实现。This Kaitchup开发的这一版本旨在提高GPU推理效率,在保持原始性能的同时显著降低内存占用。适合在资源受限环境中运行,项目页面提供了量化过程、评估结果及使用方法的详细信息。
Llama-3.1-Nemotron-70B-Instruct-HF-GGUF - Llama-3.1-Nemotron-70B多级量化模型适配不同硬件
语言模型模型量化Llama-3.1-Nemotron-70B-Instruct-HF人工智能GithubGPUHuggingface开源项目
该项目为Llama-3.1-Nemotron-70B-Instruct-HF模型提供多种量化版本,涵盖Q8_0至IQ1_M级别。针对不同硬件和性能需求,项目提供详细的文件选择指南,并包含模型提示格式及下载方法说明。用户可根据设备选择适合的版本,便于快速部署和使用。
rwkv-4-169m-pile - RNN与Transformer的高性能结合:高效文本生成
RWKVGithub开源项目文本生成转换脚本人工神经网络GPUHuggingface模型
RWKV项目由Bo Peng主导,结合RNN和Transformer的优势,提供强大的LLM性能,支持“无限”上下文长度、快速推理和节省显存。该模型支持并行训练,如GPT,可用于高效文本生成,并提供详细的使用和部署指南。项目中提供的多种硬件运行方案,使得用户能够轻松部署在不同环境中,享有快速且节能的文本生成体验,符合现代AI开发需求。
TinyLlama-1.1B-intermediate-step-715k-1.5T - 紧凑型AI模型的快速训练与高效优化
参数紧凑性HuggingfaceTinyLlama开源项目模型GPU预训练GithubLlama模型
TinyLlama项目在90天内利用16台A100-40G GPU完成了1.1B参数模型的预训练,涉及3万亿个令牌。该模型因其紧凑和模块化设计,适用于资源有限的多种应用场合。最新的中间检查点提供了715K步和1.49T令牌的参数,评估基准上表现均有提升。详情请访问TinyLlama GitHub页面。
TinyLlama-1.1B-Chat-v1.0-llamafile - 紧凑型1.1B Llama Chat模型,适用于多种计算需求
预训练Github开源项目对话模型模型HuggingfaceGPU量化TinyLlama
TinyLlama-1.1B-Chat经过3万亿个tokens的预训练,并在90天内优化完成。它提供API和CLI接口,采用与Llama 2相同的架构和分词器,适合内存和计算受限的环境,可以兼容多种开源项目。模型在合成数据集上的微调和与开源工具的对齐,增强了对话生成的多样性和准确性,适用于各种自然语言处理应用。