Colossal-AI
最新消息
- [2024/06] Open-Sora 持续开源:一键生成任意16秒720p高清影片,模型权重即可使用
- [2024/05] 大型AI模型推理速度翻倍,Colossal-Inference 开源发布
- [2024/04] Open-Sora 推出重大升级:单次生成16秒视频、720p分辨率,拥抱开源
- [2024/04] 为LLaMA3系列量身定制的推理、微调和预训练最具性价比的解决方案
- [2024/03] 3140亿参数的Grok-1推理加速3.8倍,高效易用的PyTorch+HuggingFace版本发布
- [2024/03] Open-Sora:揭示Sora类视频生成模型的完整模型参数、训练细节等
- [2024/03] Open-Sora:Sora复制解决方案成本降低46%,序列扩展至接近百万
- [2024/01] 推理性能提升46%,开源解决方案突破LLM多轮对话的长度限制
- [2023/07] HPC-AI Tech完成2200万美元A轮融资
目录
- 为什么选择 Colossal-AI
- 功能
- Colossal-AI 在实际应用中的表现
- 并行训练演示
- 单GPU训练演示
- 推理
- 安装
- 使用Docker
- 社区
- 贡献
-
[Open-Sora](https://github.com/hpcaitech/Open-Sora):揭示了完整的模型参数、训练细节以及类似Sora的视频生成模型的一切内容
[[代码]](https://github.com/hpcaitech/Open-Sora)
[[博客]](https://hpc-ai.com/blog/open-sora-from-hpc-ai-tech-team-continues-open-source-generate-any-16-second-720p-hd-video-with-one-click-model-weights-ready-to-use)
[[模型权重]](https://github.com/hpcaitech/Open-Sora?tab=readme-ov-file#model-weights)
[[演示]](https://github.com/hpcaitech/Open-Sora?tab=readme-ov-file#-latest-demo)
[[GPU 云端体验]](https://cloud.luchentech.com/)
[[OpenSora 图像]](https://cloud.luchentech.com/doc/docs/image/open-sora/)
(回到顶部)
Colossal-LLaMA-2
-
7B: 只需数百美元的半天训练即可获得与主流大模型类似的结果,开源且无商业用途的领域特定LLM解决方案。
[代码]
[博客]
[HuggingFace 模型权重]
[Modelscope 模型权重] -
13B: 仅需5000美元即可构建精细的13B私有模型。
[代码]
[博客]
[HuggingFace 模型权重]
[Modelscope 模型权重]
模型 Backbone 消耗的Token量 MMLU (5-shot) CMMLU (5-shot) AGIEval (5-shot) 高考 (0-shot) CEval (5-shot) 百川-7B - 1.2T 42.32 (42.30) 44.53 (44.02) 38.72 36.74 42.80 百川-13B-Base - 1.4T 50.51 (51.60) 55.73 (55.30) 47.20 51.41 53.60 百川2-7B-Base - 2.6T 46.97 (54.16) 57.67 (57.07) 45.76 52.60 54.00 百川2-13B-Base - 2.6T 54.84 (59.17) 62.62 (61.97) 52.08 58.25 58.10 ChatGLM-6B - 1.0T 39.67 (40.63) 41.17 (-) 40.10 36.53 38.90 ChatGLM2-6B - 1.4T 44.74 (45.46) 49.40 (-) 46.36 45.49 51.70 InternLM-7B - 1.6T 46.70 (51.00) 52.00 (-) 44.77 61.64 52.80 Qwen-7B - 2.2T 54.29 (56.70) 56.03 (58.80) 52.47 56.42 59.60 Llama-2-7B - 2.0T 44.47 (45.30) 32.97 (-) 32.60 25.46 - Linly-AI/Chinese-LLaMA-2-7B-hf Llama-2-7B 1.0T 37.43 29.92 32.00 27.57 - wenge-research/yayi-7b-llama2 Llama-2-7B - 38.56 31.52 30.99 25.95 - ziqingyang/chinese-llama-2-7b Llama-2-7B - 33.86 34.69 34.52 25.18 34.2 TigerResearch/tigerbot-7b-base Llama-2-7B 0.3T 43.73 42.04 37.64 30.61 - LinkSoul/Chinese-Llama-2-7b Llama-2-7B - 48.41 38.31 38.45 27.72 - FlagAlpha/Atom-7B Llama-2-7B 0.1T 49.96 41.10 39.83 33.00 - IDEA-CCNL/Ziya-LLaMA-13B-v1.1 Llama-13B 0.11T 50.25 40.99 40.04 30.54 - Colossal-LLaMA-2-7b-base Llama-2-7B 0.0085T 53.06 49.89 51.48 58.82 50.2 Colossal-LLaMA-2-13b-base Llama-2-13B 0.025T 56.42 61.80 54.69 69.53 60.3 ColossalChat
- 训练:将Stable Diffusion的内存消耗减少至5.6倍,硬件成本减少至46倍(从A100到RTX3060)。
- DreamBooth微调:只需3-5张所需对象的图像即可个性化您的模型。
- 推理:将推理GPU内存消耗减少至2.5倍。
(返回顶部)
生物医学
- FastFold:在GPU集群上加速训练和推理,更快的数据处理,包含超过10000残基的推理序列。
- FastFold with Intel:推理速度提升3倍,成本降低39%。
- xTrimoMultimer:加速蛋白质单体和多聚体结构预测11倍。
(返回顶部)
并行训练演示
LLaMA3
- 70亿参数LLaMA3模型训练加速18% [代码] [GPU云游乐场] [LLaMA3图片]
LLaMA2
LLaMA1
MoE
GPT-3
- 节省50%的GPU资源,加速10.7%
GPT-2
- GPU内存消耗降低11倍,使用张量并行实现超线性扩展效率
- 同一硬件上模型大小增加24倍
- 加速超过3倍
BERT
- 训练速度加快2倍,或序列长度延长50%
PaLM
- PaLM-colossalai:谷歌路径语言模型(PaLM)的可扩展实现。
OPT
- 开放预训练Transformer(OPT),由Meta发布的一个拥有1750亿参数的AI语言模型,因其公开的预训练模型权重,激励AI程序员执行各种下游任务和应用部署。
- 低成本微调OPT速度提升45%。[示例] [在线服务]
ViT
- 批量大小增加14倍,张量并行=64时训练速度加快5倍
推荐系统模型
- Cached Embedding,利用软件缓存在更小的GPU内存预算下训练更大的嵌入表。
(返回顶部)
单GPU训练演示
GPT-2
SwiftInfer
- SwiftInfer:推理性能提升46%,开源解决方案打破多轮对话中LLM的长度限制
(返回顶部)
安装
要求:
- PyTorch >= 2.1
- Python >= 3.7
- CUDA >= 11.0
- NVIDIA GPU 计算能力 >= 7.0 (V100/RTX20及更高)
- Linux 操作系统
如果安装过程中遇到任何问题,您可以在此仓库中提出一个 问题。
从 PyPI 安装
您可以通过以下命令轻松安装 Colossal-AI。默认情况下,我们在安装过程中不构建 PyTorch 扩展。
pip install colossalai
注意:目前仅支持 Linux。
然而,如果您想在安装过程中构建 PyTorch 扩展,您可以设置
BUILD_EXT=1
。BUILD_EXT=1 pip install colossalai
否则,CUDA 内核将在运行时根据需要进行构建。
我们每周也会将夜间版本发布到 PyPI。这使您能够访问主分支中的未发布功能和错误修复。 安装命令如下:
pip install colossalai-nightly
从源码下载
Colossal-AI 的版本将与仓库的主分支保持一致。如果遇到任何问题,请随时提出问题。:)
git clone https://github.com/hpcaitech/ColossalAI.git cd ColossalAI # 安装 Colossal-AI pip install .
默认情况下,我们不编译 CUDA/C++ 内核。ColossalAI 会在运行时构建它们。 如果您想安装并启用 CUDA 内核融合(使用融合优化器时必须安装):
BUILD_EXT=1 pip install .
对于使用 CUDA 10.2 的用户,您仍然可以从源码构建 ColossalAI。不过,您需要手动下载 cub 库并将其复制到相应的目录。
# 克隆仓库 git clone https://github.com/hpcaitech/ColossalAI.git cd ColossalAI # 下载 cub 库 wget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip unzip 1.8.0.zip cp -r cub-1.8.0/cub/ colossalai/kernel/cuda_native/csrc/kernels/include/ # 安装 BUILD_EXT=1 pip install .
(返回顶部)
使用 Docker
从 DockerHub 拉取
您可以直接从我们的 DockerHub 页面 拉取 docker 镜像。镜像会在发布时自动上传。
自行构建
运行以下命令,根据提供的 Dockerfile 构建 docker 镜像。
从头开始构建 Colossal-AI 需要 GPU 支持,您需要在
docker build
时使用 Nvidia Docker 运行时作为默认选项。更多详细信息请参见这里。 我们建议您直接从我们的项目页面安装 Colossal-AI。cd ColossalAI docker build -t colossalai ./docker
运行以下命令以交互模式启动 docker 容器。
docker run -ti --gpus all --rm --ipc=host colossalai bash
(返回顶部)
社区
加入 Colossal-AI 社区:论坛,Slack,以及微信,与我们的工程团队分享您的建议、反馈和问题。
贡献
参考BLOOM 和 Stable Diffusion 的成功尝试,欢迎任何拥有计算资源、数据集、模型的开发者和合作伙伴加入并构建 Colossal-AI 社区,为大规模 AI 模型的时代努力!
您可以通过以下方式联系我们或参与其中:
- 留下一个星标 ⭐ 表示您的喜爱和支持。谢谢!
- 在 GitHub 上发布问题或根据贡献指南提交 PR
- 发送您的正式提案至 contact@hpcaitech.com
非常感谢我们所有的贡献者!
(返回顶部)
CI/CD
我们利用 GitHub Actions 的力量来自动化我们的开发、发布和部署工作流程。请查看文档了解自动化工作流程的操作方式。
引用我们
本项目受一些相关项目的启发(部分来自我们的团队,部分来自其他组织)。我们希望感谢这些了不起的项目,并在参考列表中列出。
要引用本项目,您可以使用以下 BibTeX 引用。
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {Transformer 模型的成功推动了深度学习模型规模达到了数十亿参数,但单个 GPU 的内存限制导致了在多 GPU 集群上训练的迫切需求。然而,选择最佳并行策略的最佳实践仍然缺乏,因为它需要深度学习和并行计算方面的领域专业知识。Colossal-AI 系统通过引入一个统一的接口来解决上述挑战,将您的顺序模型训练代码扩展到分布式环境。它支持数据并行、流水线并行、张量并行和序列并行等并行训练方法,并集成了异构训练和零冗余优化器。与基线系统相比,Colossal-AI 在大规模模型上可以实现高达2.76倍的训练加速。}, booktitle = {第52届国际并行处理会议论文集}, pages = {766–775}, numpages = {10}, keywords = {数据集, 视线检测, 文本标注, 神经网络}, location = {盐湖城, UT, 美国}, series = {ICPP '23} }
Colossal-AI 已被接受为顶级会议的官方教程,如 NeurIPS、SC、[AAAI](https://aaai
-