#硬件加速

onnxruntime - 跨平台的机器学习模型推理与训练加速工具
ONNX Runtime机器学习深度学习硬件加速模型训练Github开源项目
ONNX Runtime是一款跨平台的机器学习推理和训练加速工具,兼容PyTorch、TensorFlow/Keras、scikit-learn等深度学习框架及传统机器学习库。它支持多种硬件和操作系统,通过硬件加速和图优化实现最佳性能,显著提升模型推理和训练速度,尤其在多节点NVIDIA GPU上的Transformer模型训练中表现出色。
DirectML - 跨平台硬件加速机器学习库,支持多种GPU
DirectMLGPU加速机器学习DirectX 12硬件加速Github开源项目
DirectML是一款基于DirectX 12的高性能机器学习库,为常见机器学习任务提供GPU加速。它支持AMD、Intel、NVIDIA等多种DirectX 12兼容GPU,与Direct3D 12无缝集成,具有低开销和跨硬件一致性。DirectML适用于需要高性能和可靠性的机器学习应用,可集成到Windows ML、ONNX Runtime、PyTorch和TensorFlow等主流框架中。
jaxopt - JAX驱动的高性能优化器库
JAXopt优化器硬件加速批处理可微分Github开源项目
JAXopt是基于JAX的优化器库,提供硬件加速、批处理和可微分的优化算法。支持GPU和TPU,可自动向量化多个优化问题实例,并支持优化解的微分。目前正与Optax合并,处于维护模式。适用于机器学习和科学计算领域的优化任务。
evojax - 基于JAX的高性能神经进化工具包
EvoJAX神经进化JAX硬件加速机器学习Github开源项目
EvoJAX是基于JAX库开发的神经进化工具包,支持在多个TPU/GPU上并行运行神经网络。通过在NumPy中实现进化算法、神经网络和任务,并即时编译到加速器上运行,EvoJAX显著提升了神经进化算法的性能。该工具包提供了多个示例,涵盖监督学习、强化学习和生成艺术等领域,展示了如何在几分钟内完成原本需要数小时或数天的进化实验。EvoJAX为研究人员提供了一个高效、灵活的神经进化开发平台。
onnxruntime-genai - 设备端高效运行LLM模型的灵活解决方案
ONNX Runtime生成式AILLM模型架构硬件加速Github开源项目
onnxruntime-genai是一个用于设备端高效运行大型语言模型的API。它支持Gemma、Llama、Mistral等多种模型架构,提供多语言接口。该项目实现了生成式AI的完整流程,包括预处理、推理、logits处理等。开发者可以使用generate()方法一次性生成输出或实现逐token流式输出。onnxruntime-genai为本地部署和运行LLM模型提供了简单、灵活、高性能的解决方案。
onnx-web - 简化ONNX模型运行的跨平台工具
onnx-webStable DiffusionAI绘图硬件加速图像生成Github开源项目
onnx-web是一个简化ONNX模型运行过程的开源工具,支持AMD和Nvidia GPU加速以及CPU回退。它提供用户友好的Web界面,支持txt2img、img2img等多种diffusion管道。该工具允许添加自定义模型,融合LoRA等附加网络,并具有多阶段和区域提示功能。onnx-web还提供API接口,适用于各种创作需求。
fanplayer - 基于FFmpeg的高性能跨平台视频播放器 支持多功能媒体播放
视频播放器跨平台FFmpeg音视频同步硬件加速Github开源项目
fanplayer是一款基于FFmpeg的跨平台视频播放器,支持Windows和Android系统。它以低资源消耗、精准音视频同步和多种渲染模式为特色。播放器提供变速播放、流媒体支持、硬件加速解码等功能,适用于多种场景。其代码结构简洁,易于理解和扩展。
QMPlay2 - 跨平台开源多媒体播放器
QMPlay2多媒体播放器跨平台FFmpeg硬件加速Github开源项目
QMPlay2是一款跨平台开源多媒体播放器,支持多种音视频格式、YouTube视频和音频CD。它具备硬件加速解码、去隔行和球面视图等功能,提供音频均衡器和可视化效果。QMPlay2界面友好,支持多语言,可通过扩展模块增加功能。作为一款功能丰富的媒体播放器,QMPlay2易于使用且适用于多种操作系统。
transfomers-silicon-research - Transformer模型硬件实现研究进展
TransformerBERT自然语言处理硬件加速神经网络Github开源项目
本项目汇集了Transformer模型硬件实现的研究资料,包括BERT及其优化方案。内容涵盖算法-硬件协同设计、神经网络加速器、量化和剪枝等技术。项目提供了详细的论文列表,涉及FPGA实现、功耗优化等多个领域,全面展示了Transformer硬件加速的最新研究进展。
tensorcircuit - 新一代量子软件框架 支持多种先进功能
TensorCircuit量子软件框架自动微分即时编译硬件加速Github开源项目
TensorCircuit是新一代量子软件框架,基于现代机器学习框架构建。它支持自动微分、即时编译、硬件加速等多项先进功能,可高效模拟量子-经典混合算法。该框架还能访问实际量子硬件,提供多种计算资源的混合部署方案,为量子计算研究和应用提供强大灵活的工具。
libvpl - 开源GPU加速视频处理库
Intel VPLGPU加速视频处理AI推理硬件加速Github开源项目
Intel VPL是开源的GPU加速视频处理库,提供硬件加速的视频解码、编码和处理功能。适用于AI视觉推理、媒体传输、云游戏等场景。包含API头文件、调度器和示例代码,支持多种GPU平台。可通过源码或包管理器安装,并支持CMake和pkg-config集成。使用时需安装至少一个实现库。
gpt2 - HPU处理器上运行GPT2的Gaudi配置方案
Optimum HabanaGithub模型训练开源项目硬件加速模型Huggingface机器学习人工智能
GPT2模型在Habana Gaudi处理器(HPU)上的优化配置方案,通过GaudiConfig文件实现Fused Adam优化、梯度裁剪和混合精度训练。基于Optimum Habana接口,支持单/多HPU环境下的模型加载、训练和推理,可用于各类下游任务。配置方案与Transformers库完全兼容,并提供HPU专属训练参数。
roberta-large - 基于HPU的深度学习模型优化配置和训练方案
模型训练开源项目RoBERTaOptimum Habana模型硬件加速Huggingface深度学习Github
这是一个专门为roberta-large模型开发的HPU优化配置方案。项目基于Optimum Habana框架,集成了Hugging Face生态系统,提供GaudiConfig配置文件实现混合精度训练、AdamW优化和梯度裁剪等核心功能。支持单机及多机HPU环境下的模型训练和部署,可用于问答等自然语言处理任务。
dolphin-2.2.1-mistral-7B-GGUF - 支持多平台GPU加速的量化格式,用于大语言模型的创新解决方案
Huggingface模型文件硬件加速Dolphin 2.2.1 Mistral 7B量化开源项目模型GithubPython库
Dolphin 2.2.1 Mistral 7B采用GGUF量化格式,这一创新方案取代了已弃用的GGML。借助Massed Compute的硬件,该模型可实现高效的GPU加速和优质存储,并兼容多个web UI和专业工具,如llama.cpp和LM Studio,以满足多平台的深度学习需求。