#Jax
maxtext - 高性能与可扩展的开源大模型解决方案,支持TPUs与GPUs
MaxTextTPUGPUJaxLLMGithub开源项目
MaxText是一个高性能、可扩展的开源大模型,采用纯Python和Jax编写,专为Google Cloud的TPUs和GPUs设计。支持训练和推理,能够从单个主机扩展到大型集群,且无需复杂优化。MaxText适用于研究和生产中的大型语言模型项目,支持Llama2、Mistral和Gemma模型,并提供详细的入门指南和性能测试结果。
nanodl - 设计与训练变压器模型的Jax库
NanoDLJaxtransformer模型分布式训练深度学习Github开源项目
这是一个基于Jax的库,旨在简化变压器模型的开发和训练,特别适合资源有限的环境。支持多种模型如Gemma、GPT3、T5和Whisper,涵盖自然语言处理和计算机视觉任务。提供灵活的模块和层,包括Jax/Flax中未提供的RoPE、GQA、MQA和Swin注意力机制,支持多GPU/TPU的数据并行训练,简化数据处理。该库还包含加速的经典机器学习模型,帮助用户以最小的代码重写快速实现模型开发和训练。
prompt-tuning - 简介提示微调技术的参数优化及其实践方法
Prompt TuningT5XFlaxJax模型配置Github开源项目
本指南客观介绍了基于T5X、Flaxformer和JAX的提示微调技术,涵盖完整流程,包括安装、训练和推理,并详细说明在TPU和TPU Pod上执行大规模模型微调的方法。提供了配置文件管理和提示参数初始化的详细步骤,适用于研究人员和开发者优化模型性能。
big_vision - 基于Jax/Flax的大规模视觉模型训练框架
big vision深度学习计算机视觉模型训练JaxGithub开源项目
Big Vision是一个用于训练大规模视觉模型的开源代码库。它基于Jax/Flax构建,支持在Cloud TPU VM和GPU上运行。该项目采用tf.data和TensorFlow Datasets实现高效的数据处理,可无缝扩展至2048个TPU核心的分布式环境。Big Vision涵盖了视觉Transformer、多模态学习、知识蒸馏等多个研究方向,为大规模视觉实验提供了可靠的基础。
ringattention - 创新注意力机制大幅提升Transformer上下文处理能力
Ring AttentionBlockwise TransformersGPUTPUJaxGithub开源项目
ringattention项目实现Ring Attention和Blockwise Transformers技术,显著提升Transformer模型上下文处理能力。通过跨设备分布式计算和通信重叠,模型可处理长达数千万个token的序列,无需增加开销。该技术支持causal block和cache index,为大规模语言模型训练提供高效解决方案,特别适用于超长上下文处理场景。
ssm-book - 状态空间模型可执行教程,配合dynamax库的实践指南
状态空间模型机器学习贝叶斯滤波动态系统JaxGithub开源项目
ssm-book项目提供了一本关于状态空间模型的可执行教程,与dynamax库配套使用。该教程由Kevin Murphy、Scott Linderman等人编写,采用MIT许可证。内容涵盖贝叶斯滤波、平滑和状态估计等主题,并提供JAX代码实现。这一资源有助于学习者掌握状态空间模型的理论和实践,适用于概率机器学习和机器人技术等领域。
purejaxrl - JAX强化学习框架实现千倍性能提升
PureJaxRL强化学习Jax性能优化并行训练Github开源项目
PureJaxRL是一个端到端JAX强化学习框架,将整个训练流程(包括环境)实现在JAX中。通过JIT编译和避免CPU-GPU数据传输,在GPU上并行运行多个智能体时,性能比PyTorch实现提升1000倍以上。框架支持使用JAX的jit、vmap等功能优化训练流程,实现高效并行训练、快速超参数调优和元进化算法探索。
相关文章