dataloader

适用于 TensorFlow、PyTorch 和 JAX 的 GPU 优化数据加载器

Merlin Dataloader 提供适用于 TensorFlow、PyTorch 和 JAX 的 GPU 优化数据加载器，大幅提升推荐模型的训练速度。优势包括速度提升超10倍、支持大于内存的数据集、每个周期的数据随机化及分布式训练。这些特点使其成为高效训练推荐模型的理想工具。

访问官网

Github

文档

介绍相关项目

tevatron - 神经检索模型训练与推理工具

GithubHuggingFaceLLM神经检索模型LoRA微调Mistral-7BTevatron开源项目

Tevatron提供高效工具包，支持在GPU和TPU上大规模训练和推理神经检索模型，集成DeepSpeed和LoRA等技术，可加载HuggingFace的预训练模型，适用于神经检索和开放域QA任务。

lorax - 支持在单个GPU上运行数千个微调模型的框架

GithubLoRAX低延迟多模型推理开源项目生产准备高通量

LoRAX框架支持在单个GPU上运行数千个微调模型，有效降低服务成本且不影响吞吐量和延迟。主要特点包括动态适配器加载、异构连续批处理、适配器交换调度和优化推理。LoRAX提供预构建的Docker镜像、Kubernetes Helm图表和Prometheus指标，并兼容OpenAI API，支持多轮聊天对话和私有适配器。免费商用，采用Apache 2.0许可。

dgl - 图深度学习框架加速图神经网络应用与研究

DGLGithub分布式训练图神经网络大规模图开源项目深度学习

DGL是一个高效易用的Python包，支持在图上执行深度学习。兼容PyTorch、Apache MXNet和TensorFlow等多种框架，提供GPU加速的图库、丰富的GNN模型示例、全面的教学材料及优化的分布式训练功能。适合从研究人员到行业专家的各类用户。广泛应用于学术及实践领域，无论是基础教学还是高级图分析，DGL均能有效支持。

lightning-thunder - PyTorch模型优化编译器显著提升训练速度

GPU加速GithubPyTorch开源项目性能优化深度学习编译器

Lightning Thunder是一款专为PyTorch设计的源到源编译器。它通过整合nvFuser、torch.compile、cuDNN等多种硬件执行器，大幅提升PyTorch程序的执行效率。支持单GPU和多GPU环境，在Llama 2 7B模型训练中实现40%的吞吐量提升。Thunder具有易用性、可理解性和可扩展性，是PyTorch开发者提升模型性能的有力工具。

recommenders-addons - 大规模推荐系统中的动态嵌入技术增强体验

GPU加速GithubTensorFlow Recommenders Addons动态嵌入技术大规模训练开源项目推荐系统

TensorFlow Recommenders Addons通过引入动态嵌入技术，使TensorFlow更适合搜索、推荐和广告模型的训练，全面兼容TensorFlow优化器和CheckPoint功能，支持GPU上的训练和推理。项目增强了推荐系统性能，解决了哈希冲突问题，并提供多种动态嵌入存储选项（如cuckoohash_map和Redis）。支持TF serving和Triton Inference Server，以便在大规模环境中部署和评估复杂推荐模型。

datasets - 公共数据集下载和准备的实用库

GithubMNISTTensorFlow Datasetstf.data.Dataset定制化开源项目性能

TensorFlow Datasets是一个公共数据集下载和准备的实用库，简化数据集加载与处理。通过其API，用户可以访问和使用多个预构建数据集，优化训练管道性能，并确保数据的确定性与可重复性。详情请参考官方教程、指南及API文档，支持在Colab笔记本中交互式操作。此工具适合快速集成数据集与进行机器学习模型训练的开发者。

xla - 提升深度学习模型训练与推理效率的开源工具

GithubGoogle CloudPyTorch/XLATPU分布式计算开源项目深度学习

PyTorch/XLA 是一个将 PyTorch 深度学习框架与 XLA 编译器及 Cloud TPUs 连接的 Python 包，提供高效的训练和推理解决方案。用户可以通过 Kaggle 免费试用，并安装支持 TPU 和 GPU 的插件包。项目提供详细的文档和教程，包括使用指南、性能调优方法和 Docker 镜像使用说明。鼓励用户通过 issue 提交反馈和建议，欢迎开源贡献。

mirage - 多层次张量程序超优化器提升DNN性能

CUDAGithubMirage开源项目张量代数深度神经网络超优化器

作为一款先进的张量代数超优化器，Mirage在深度神经网络(DNN)性能优化领域展现出独特优势。通过在GPU计算层次结构中实现多层次联合优化，该工具能够自动发现并生成高效的张量程序。Mirage不仅可以识别和验证复杂的优化策略，还能通过搜索等效程序空间来开发出性能卓越的自定义内核。这一技术在各类DNN应用中表现出色，如LLAMA-3-70B模型中的组查询注意力机制和低秩适配器优化，生成的CUDA内核性能显著优于传统手动优化方法。

GradCache - 突破GPU/TPU内存限制，实现对比学习无限扩展

GPUGithubGradient CacheJAXPytorch对比学习开源项目

Gradient Cache技术突破了GPU/TPU内存限制，可以无限扩展对比学习的批处理大小。仅需一个GPU即可完成原本需要8个V100 GPU的训练，并能够用更具成本效益的高FLOP低内存系统替换大内存GPU/TPU。该项目支持Pytorch和JAX框架，并已整合至密集段落检索工具DPR。

Megatron-DeepSpeed - 分布式训练框架助力大规模语言模型预训练

DeepSpeed配置GPT预训练GithubMegatron-DeepSpeed分布式训练开源项目预处理数据

Megatron-DeepSpeed是一个集成DeepSpeed的大规模语言模型预训练框架。它支持多GPU和多节点分布式训练,提供数据预处理、预训练、微调和下游任务评估等完整流程。该框架针对BERT、GPT等模型优化,实现高效大规模训练。集成DeepSpeed的流水线并行和ZeRO-DP技术,进一步提升训练效率和灵活性。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

问小白

问小白是一个基于 DeepSeek R1 模型的智能对话平台，专为用户提供高效、贴心的对话体验。实时在线，支持深度思考和联网搜索。免费不限次数，帮用户写作、创作、分析和规划，各种任务随时完成！

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Trae

Trae是一种自适应的集成开发环境（IDE），通过自动化和多元协作改变开发流程。利用Trae，团队能够更快速、精确地编写和部署代码，从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能，是提升开发效率的理想工具。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com