#Jax

MaxText入门指南 - 高性能可扩展的JAX LLM框架

2 个月前

MaxText TPU GPU Jax LLM Github 开源项目

2 个月前

PureJaxRL：高效的纯JAX强化学习实现

3 个月前

PureJaxRL 强化学习 Jax 性能优化并行训练 Github 开源项目

3 个月前

Ring Attention: 突破Transformer模型的上下文长度限制

3 个月前

Ring Attention Blockwise Transformers GPU TPU Jax Github 开源项目

3 个月前

Big Vision:谷歌研究院的大规模视觉模型训练框架

3 个月前

big vision 深度学习计算机视觉模型训练 Jax Github 开源项目

3 个月前

NanoDL: 基于Jax的轻量级深度学习库

3 个月前

NanoDL Jax transformer模型分布式训练深度学习 Github 开源项目

3 个月前

MaxText: Google的高性能可扩展大语言模型框架

3 个月前

MaxText TPU GPU Jax LLM Github 开源项目

3 个月前

相关项目

maxtext

MaxText是一个高性能、可扩展的开源大模型，采用纯Python和Jax编写，专为Google Cloud的TPUs和GPUs设计。支持训练和推理，能够从单个主机扩展到大型集群，且无需复杂优化。MaxText适用于研究和生产中的大型语言模型项目，支持Llama2、Mistral和Gemma模型，并提供详细的入门指南和性能测试结果。

nanodl

这是一个基于Jax的库，旨在简化变压器模型的开发和训练，特别适合资源有限的环境。支持多种模型如Gemma、GPT3、T5和Whisper，涵盖自然语言处理和计算机视觉任务。提供灵活的模块和层，包括Jax/Flax中未提供的RoPE、GQA、MQA和Swin注意力机制，支持多GPU/TPU的数据并行训练，简化数据处理。该库还包含加速的经典机器学习模型，帮助用户以最小的代码重写快速实现模型开发和训练。

prompt-tuning

本指南客观介绍了基于T5X、Flaxformer和JAX的提示微调技术，涵盖完整流程，包括安装、训练和推理，并详细说明在TPU和TPU Pod上执行大规模模型微调的方法。提供了配置文件管理和提示参数初始化的详细步骤，适用于研究人员和开发者优化模型性能。

big_vision

Big Vision是一个用于训练大规模视觉模型的开源代码库。它基于Jax/Flax构建，支持在Cloud TPU VM和GPU上运行。该项目采用tf.data和TensorFlow Datasets实现高效的数据处理，可无缝扩展至2048个TPU核心的分布式环境。Big Vision涵盖了视觉Transformer、多模态学习、知识蒸馏等多个研究方向，为大规模视觉实验提供了可靠的基础。

ringattention

ringattention项目实现Ring Attention和Blockwise Transformers技术，显著提升Transformer模型上下文处理能力。通过跨设备分布式计算和通信重叠，模型可处理长达数千万个token的序列，无需增加开销。该技术支持causal block和cache index，为大规模语言模型训练提供高效解决方案，特别适用于超长上下文处理场景。

ssm-book

ssm-book项目提供了一本关于状态空间模型的可执行教程，与dynamax库配套使用。该教程由Kevin Murphy、Scott Linderman等人编写，采用MIT许可证。内容涵盖贝叶斯滤波、平滑和状态估计等主题，并提供JAX代码实现。这一资源有助于学习者掌握状态空间模型的理论和实践，适用于概率机器学习和机器人技术等领域。

purejaxrl

PureJaxRL是一个端到端JAX强化学习框架,将整个训练流程(包括环境)实现在JAX中。通过JIT编译和避免CPU-GPU数据传输,在GPU上并行运行多个智能体时,性能比PyTorch实现提升1000倍以上。框架支持使用JAX的jit、vmap等功能优化训练流程,实现高效并行训练、快速超参数调优和元进化算法探索。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com