#GPU

DLPrimitives: 开源跨平台深度学习原语库和推理引擎

2024年09月05日
Cover of DLPrimitives: 开源跨平台深度学习原语库和推理引擎

REINVENT 3.2: 革新分子设计的开源工具

2024年09月05日
Cover of REINVENT 3.2: 革新分子设计的开源工具

NVIDIA开源GPU内核模块:Linux平台上的重大突破

2024年09月05日
Cover of NVIDIA开源GPU内核模块:Linux平台上的重大突破

使用LoRA方法在单个16G GPU上微调LLaMA模型

2024年09月05日
Cover of 使用LoRA方法在单个16G GPU上微调LLaMA模型

TensorRT-LLM 后端: 在 Triton 推理服务器上高效部署大型语言模型

2024年09月05日
Cover of TensorRT-LLM 后端: 在 Triton 推理服务器上高效部署大型语言模型

HolisticTraceAnalysis:一个强大的PyTorch分布式训练性能分析工具

2024年09月05日
Cover of HolisticTraceAnalysis:一个强大的PyTorch分布式训练性能分析工具

cuVS: NVIDIA推出的GPU加速向量搜索与聚类库

2024年09月05日
Cover of cuVS: NVIDIA推出的GPU加速向量搜索与聚类库

Ring Attention: 突破Transformer模型的上下文长度限制

2024年09月05日
Cover of Ring Attention: 突破Transformer模型的上下文长度限制

NOS: 革新性的Kubernetes GPU资源优化模块

2024年09月05日
Cover of NOS: 革新性的Kubernetes GPU资源优化模块

FLUTE: 一种灵活高效的查找表量化引擎

2024年09月05日
Cover of FLUTE: 一种灵活高效的查找表量化引擎
相关项目
Project Cover

pytorch-doc-zh

提供最新的PyTorch中文文档与教程,涵盖深度学习和张量优化,支持GPU和CPU。包括2.0版本中文翻译、最新英文教程和文档,以及丰富的学习资源和社区支持,适合希望深入了解和使用PyTorch的中文用户。

Project Cover

skypilot

SkyPilot是一个为LLMs和AI提供的框架,支持在任意云平台运行,最大化GPU利用率和降低成本。该框架通过自动管理作业队列,简化了扩展操作,还提供了对象存储的简便接入。用户可以在全球任一区域的云中自动故障转移,使用管理型Spot实例以较低成本运行,同时自动选择成本最优的机型和区域。

Project Cover

mixtral-offloading

该项目实现了Mixtral-8x7B模型的高效推理,使用混合量化和MoE卸载策略。通过HQQ量化方案分别处理注意力层和专家层,使模型适应GPU和CPU内存。每层的专家单独卸载并在需要时重新加载到GPU,活跃专家存储在LRU缓存中以减少GPU-RAM通信。更多技术细节和结果请参阅技术报告。

Project Cover

maxtext

MaxText是一个高性能、可扩展的开源大模型,采用纯Python和Jax编写,专为Google Cloud的TPUs和GPUs设计。支持训练和推理,能够从单个主机扩展到大型集群,且无需复杂优化。MaxText适用于研究和生产中的大型语言模型项目,支持Llama2、Mistral和Gemma模型,并提供详细的入门指南和性能测试结果。

Project Cover

LLM-Training-Puzzles

本项目包含8个在多GPU环境下训练大型语言模型的挑战性谜题,旨在通过实践掌握内存效率和计算管道优化的关键训练原理。尽管大多数人没有机会在成千上万台计算机上进行训练,这些技能对现代AI的发展至关重要。推荐使用Colab运行这些谜题,提供便捷的上手体验。

Project Cover

helix

Helix是一款为企业提供的私有部署人工智能平台,允许自主控制数据安全并本地部署AI技术。平台支持简便的模型微调,实现拖放操作即可完成,适合处理语言和图像模型等任务。Helix通过优化GPU内存和响应时间的权衡,为企业提供高效、可扩展的AI解决方案,特别适用于需要保持数据隐私和数据安全的场合。Helix助力企业轻松引入开源AI的顶尖技术,开启私有人工智能的应用实践。

Project Cover

WebGPT

WebGPT项目是一款基于WebGPU的Transformer模型应用,使用纯JavaScript和HTML实现。该项目不仅用于技术演示,同时也作为教育资源,支持在主流浏览器中运行,并能管理最多500M参数的模型。主要优化在Chrome v113和Edge Canary等浏览器上,通过WebGPU技术提高运行效率,适合用于学习和研究深度学习模型。

Project Cover

LLaMa2lang

LLaMa2lang提供便捷脚本,微调LLaMa3-8B模型以适应不同语言。结合RAG和翻译模型,将数据集OASST1翻译为目标语言,进行数据集成和细调,并支持推理。支持DPO和ORPO等优化方法,进一步提升模型回答质量,兼容多个基础模型与翻译架构。

Project Cover

introtodeeplearning

MIT的深度学习课程提供完整的代码和实验指导,帮助学习者自主完成实验。课程内容包括讲座视频、幻灯片及云端运行的Jupyter笔记本。实验在Google Colaboratory中运行,无需下载。课程使用mitdeeplearning Python包,简化编程过程。详细的实验提交说明和竞赛指南确保学习者掌握深度学习技能。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号