Project Icon

ThunderKittens

高效瓦片原语框架助力深度学习内核开发

ThunderKittens是一个用于开发高性能CUDA深度学习内核的框架。它基于现代GPU架构设计,通过操作16x16及以上的数据瓦片实现高效计算。框架支持张量核心、共享内存优化和异步数据传输等特性,充分利用GPU性能。ThunderKittens以简洁、可扩展和高速为设计原则,适用于各类深度学习算法的高效实现。

MegEngine - 高效、可扩展且易于使用的深度学习框架
GithubMegEngine开源项目深度学习框架硬件需求训练与推理高性能
MegEngine是一个高效、可扩展且易于使用的深度学习框架,具有统一的训练和推理框架、低硬件要求和跨平台高效推理的三大关键特性。支持x86、Arm、CUDA、RoCM等多种平台,兼容Linux、Windows、iOS、Android等系统。通过DTR算法和Pushdown内存规划器,大幅降低GPU内存使用。适用于模型开发到部署的各个环节,致力于构建开放友好的AI社区。
GPU-Puzzles - 实践驱动的GPU编程教程 掌握深度学习核心技能
CUDAGPU编程GithubNUMBA并行计算开源项目深度学习
GPU-Puzzles是一个创新的交互式GPU编程教程项目。它采用NUMBA将Python代码直接映射到CUDA内核,让初学者能快速上手GPU编程。通过一系列精心设计的编程练习,学习者可在短时间内从GPU编程基础进阶到理解驱动现代深度学习的核心算法。该项目为希望深入了解GPU架构及其在机器学习中关键作用的人提供了实用的学习资源。
Megatron-LM - 优化GPU训练技术 加速大规模Transformer模型
GPU优化GithubMegatron-CoreMegatron-LM分布式训练大语言模型开源项目
Megatron-LM框架利用GPU优化技术实现Transformer模型的大规模训练。其Megatron-Core组件提供模块化API和系统优化,支持自定义模型训练。该项目可进行BERT、GPT、T5等模型预训练,支持数千GPU分布式训练百亿参数级模型,并提供数据预处理、模型评估和下游任务功能。
exllama - 为现代GPU优化的快速内存高效Llama实现
AI模型CUDAExLlamaGPU加速Github开源项目深度学习
ExLlama是一个基于Python/C++/CUDA的独立实现,针对4位GPTQ权重进行了优化,旨在提高现代GPU上的运行速度和内存效率。该项目支持NVIDIA 30系列及更新的GPU,可处理Llama、Koala和WizardLM等多种大型语言模型。ExLlama具备基准测试、聊天机器人示例和Web界面等功能,同时支持Docker部署。尽管仍在开发中,项目已展现出卓越的性能和效率。
awesome-tensor-compilers - 编译深度学习与张量计算的开源项目与研究综述
GPU优化GithubTensor Computation开源项目机器学习编译器深度学习编译器自动调优
本页面汇集了关于张量计算与深度学习的优质开源编译器项目和研究论文,包括编译器与中间表示(IR)设计、自动调优与自动调度、CPU和GPU优化、NPU优化、图级优化、动态模型、图神经网络、分布式计算、量化方法、稀疏计算、程序改写以及验证与测试等领域的内容。页面还提供相关教程资源,帮助开发者和研究人员优化机器学习和深度学习的编译性能。
dlprimitives - 开源跨平台深度学习与推理工具库
GPUGithubONNXOpenCL开源项目深度学习跨平台
DLPrimitives是一个开源项目,旨在提供跨平台的OpenCL深度学习和推理工具。该项目创建了支持多种GPU架构的深度学习原语库和高效推理库。DLPrimitives的目标包括开发简约的深度学习框架,并与PyTorch、TensorFlow等主流框架集成,使OpenCL API在深度学习领域得到广泛应用。目前,DLPrimitives已支持多种神经网络模型,并在AMD、Intel、NVIDIA等多种GPU上进行了测试。
jittor - 高性能实时编译深度学习框架,集成多种先进模型库
GithubJIT编译JittorPython开源项目深度学习框架高性能
Jittor是一个基于实时(JIT)编译和元操作符的高性能深度学习框架。它支持Python前端,CUDA和C++后端,能够生成针对不同模型的高效代码。Jittor提供了丰富的模型库,涵盖图像识别、检测、分割、生成、可微渲染、几何学习和强化学习等领域。安装方式多样,环境配置简便,并且包含详尽的教程和文档,帮助用户快速入门。
lectures - GPU并行计算技术与高性能编程系列讲座
CUDAGPU编程GithubPyTorch并行计算开源项目深度学习
讲座系列涉及CUDA、PyTorch优化、量化技术和稀疏计算等GPU编程前沿话题。由行业专家授课,内容包括性能分析、内存架构和优化方法。结合理论和实践,帮助学习者掌握并行计算技能,增强GPU编程水平。面向对GPU加速和深度学习优化感兴趣的技术人员。
open-gpu-kernel-modules - NVIDIA驱动程序fork版实现RTX 4090 GPU间直接通信
GPUGithubLinux驱动NVIDIAP2P支持PCIe开源项目
这个项目是NVIDIA驱动程序的一个分支,为RTX 4090显卡添加了点对点(P2P)通信支持。通过直接利用PCIe总线进行GPU间数据传输,该方案绕过了传统的MAILBOXP2P接口。项目成功实现了P2P功能,并与NCCL兼容,可显著提高多GPU系统性能。这种创新方法遵循PCIe规范,有望被纳入上游驱动程序,为NVIDIA GPU用户提供更高效的计算能力。
TIM-VX - 神经网络加速部署框架 支持多种AI硬件
GithubNPU加速TIM-VX开源项目张量运算深度学习框架神经网络
TIM-VX是一个开源的神经网络部署框架,支持150多种算子和多种硬件平台。它具有简化的C++ API、动态图构建和形状推断功能,可作为多种深度学习框架的后端。TIM-VX简化了AI应用的开发和部署流程,适用于Android NN、TensorFlow Lite等多种环境。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号