Logo

#Jax

MaxText入门指南 - 高性能可扩展的JAX LLM框架

1 个月前
Cover of MaxText入门指南 - 高性能可扩展的JAX LLM框架

Ring Attention: 突破Transformer模型的上下文长度限制

2 个月前
Cover of Ring Attention: 突破Transformer模型的上下文长度限制

NanoDL: 基于Jax的轻量级深度学习库

2 个月前
Cover of NanoDL: 基于Jax的轻量级深度学习库

PureJaxRL:高效的纯JAX强化学习实现

2 个月前
Cover of PureJaxRL:高效的纯JAX强化学习实现

Big Vision:谷歌研究院的大规模视觉模型训练框架

2 个月前
Cover of Big Vision:谷歌研究院的大规模视觉模型训练框架

MaxText: Google的高性能可扩展大语言模型框架

2 个月前
Cover of MaxText: Google的高性能可扩展大语言模型框架

相关项目

Project Cover
maxtext
MaxText是一个高性能、可扩展的开源大模型,采用纯Python和Jax编写,专为Google Cloud的TPUs和GPUs设计。支持训练和推理,能够从单个主机扩展到大型集群,且无需复杂优化。MaxText适用于研究和生产中的大型语言模型项目,支持Llama2、Mistral和Gemma模型,并提供详细的入门指南和性能测试结果。
Project Cover
nanodl
这是一个基于Jax的库,旨在简化变压器模型的开发和训练,特别适合资源有限的环境。支持多种模型如Gemma、GPT3、T5和Whisper,涵盖自然语言处理和计算机视觉任务。提供灵活的模块和层,包括Jax/Flax中未提供的RoPE、GQA、MQA和Swin注意力机制,支持多GPU/TPU的数据并行训练,简化数据处理。该库还包含加速的经典机器学习模型,帮助用户以最小的代码重写快速实现模型开发和训练。
Project Cover
prompt-tuning
本指南客观介绍了基于T5X、Flaxformer和JAX的提示微调技术,涵盖完整流程,包括安装、训练和推理,并详细说明在TPU和TPU Pod上执行大规模模型微调的方法。提供了配置文件管理和提示参数初始化的详细步骤,适用于研究人员和开发者优化模型性能。
Project Cover
big_vision
Big Vision是一个用于训练大规模视觉模型的开源代码库。它基于Jax/Flax构建,支持在Cloud TPU VM和GPU上运行。该项目采用tf.data和TensorFlow Datasets实现高效的数据处理,可无缝扩展至2048个TPU核心的分布式环境。Big Vision涵盖了视觉Transformer、多模态学习、知识蒸馏等多个研究方向,为大规模视觉实验提供了可靠的基础。
Project Cover
ringattention
ringattention项目实现Ring Attention和Blockwise Transformers技术,显著提升Transformer模型上下文处理能力。通过跨设备分布式计算和通信重叠,模型可处理长达数千万个token的序列,无需增加开销。该技术支持causal block和cache index,为大规模语言模型训练提供高效解决方案,特别适用于超长上下文处理场景。
Project Cover
ssm-book
ssm-book项目提供了一本关于状态空间模型的可执行教程,与dynamax库配套使用。该教程由Kevin Murphy、Scott Linderman等人编写,采用MIT许可证。内容涵盖贝叶斯滤波、平滑和状态估计等主题,并提供JAX代码实现。这一资源有助于学习者掌握状态空间模型的理论和实践,适用于概率机器学习和机器人技术等领域。
Project Cover
purejaxrl
PureJaxRL是一个端到端JAX强化学习框架,将整个训练流程(包括环境)实现在JAX中。通过JIT编译和避免CPU-GPU数据传输,在GPU上并行运行多个智能体时,性能比PyTorch实现提升1000倍以上。框架支持使用JAX的jit、vmap等功能优化训练流程,实现高效并行训练、快速超参数调优和元进化算法探索。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号