Colossal-AI

Colossal-AI: 让大型 AI 模型变得更便宜、更快、更易获得

论文 | 文档 | 示例 | 论坛 | GPU 云平台 | 博客

[Open-Sora](https://github.com/hpcaitech/Open-Sora)：揭示了完整的模型参数、训练细节以及类似Sora的视频生成模型的一切内容 [[代码]](https://github.com/hpcaitech/Open-Sora) [[博客]](https://hpc-ai.com/blog/open-sora-from-hpc-ai-tech-team-continues-open-source-generate-any-16-second-720p-hd-video-with-one-click-model-weights-ready-to-use) [[模型权重]](https://github.com/hpcaitech/Open-Sora?tab=readme-ov-file#model-weights) [[演示]](https://github.com/hpcaitech/Open-Sora?tab=readme-ov-file#-latest-demo) [[GPU 云端体验]](https://cloud.luchentech.com/) [[OpenSora 图像]](https://cloud.luchentech.com/doc/docs/image/open-sora/)

(回到顶部)

Colossal-LLaMA-2

[GPU 云端体验]
[LLaMA3 图像]

7B: 只需数百美元的半天训练即可获得与主流大模型类似的结果，开源且无商业用途的领域特定LLM解决方案。
[代码]
[博客]
[HuggingFace 模型权重]
[Modelscope 模型权重]
13B: 仅需5000美元即可构建精细的13B私有模型。
[代码]
[博客]
[HuggingFace 模型权重]
[Modelscope 模型权重]

模型	Backbone	消耗的Token量	MMLU (5-shot)	CMMLU (5-shot)	AGIEval (5-shot)	高考 (0-shot)	CEval (5-shot)
百川-7B	-	1.2T	42.32 (42.30)	44.53 (44.02)	38.72	36.74	42.80
百川-13B-Base	-	1.4T	50.51 (51.60)	55.73 (55.30)	47.20	51.41	53.60
百川2-7B-Base	-	2.6T	46.97 (54.16)	57.67 (57.07)	45.76	52.60	54.00
百川2-13B-Base	-	2.6T	54.84 (59.17)	62.62 (61.97)	52.08	58.25	58.10
ChatGLM-6B	-	1.0T	39.67 (40.63)	41.17 (-)	40.10	36.53	38.90
ChatGLM2-6B	-	1.4T	44.74 (45.46)	49.40 (-)	46.36	45.49	51.70
InternLM-7B	-	1.6T	46.70 (51.00)	52.00 (-)	44.77	61.64	52.80
Qwen-7B	-	2.2T	54.29 (56.70)	56.03 (58.80)	52.47	56.42	59.60
Llama-2-7B	-	2.0T	44.47 (45.30)	32.97 (-)	32.60	25.46	-
Linly-AI/Chinese-LLaMA-2-7B-hf	Llama-2-7B	1.0T	37.43	29.92	32.00	27.57	-
wenge-research/yayi-7b-llama2	Llama-2-7B	-	38.56	31.52	30.99	25.95	-
ziqingyang/chinese-llama-2-7b	Llama-2-7B	-	33.86	34.69	34.52	25.18	34.2
TigerResearch/tigerbot-7b-base	Llama-2-7B	0.3T	43.73	42.04	37.64	30.61	-
LinkSoul/Chinese-Llama-2-7b	Llama-2-7B	-	48.41	38.31	38.45	27.72	-
FlagAlpha/Atom-7B	Llama-2-7B	0.1T	49.96	41.10	39.83	33.00	-
IDEA-CCNL/Ziya-LLaMA-13B-v1.1	Llama-13B	0.11T	50.25	40.99	40.04	30.54	-
Colossal-LLaMA-2-7b-base	Llama-2-7B	0.0085T	53.06	49.89	51.48	58.82	50.2
Colossal-LLaMA-2-13b-base	Llama-2-13B	0.025T	56.42	61.80	54.69	69.53	60.3

ColossalChat

训练：将Stable Diffusion的内存消耗减少至5.6倍，硬件成本减少至46倍（从A100到RTX3060）。

DreamBooth微调：只需3-5张所需对象的图像即可个性化您的模型。

推理：将推理GPU内存消耗减少至2.5倍。

(返回顶部)

生物医学

AlphaFold蛋白质结构的加速

FastFold：在GPU集群上加速训练和推理，更快的数据处理，包含超过10000残基的推理序列。

FastFold with Intel：推理速度提升3倍，成本降低39%。

xTrimoMultimer：加速蛋白质单体和多聚体结构预测11倍。

(返回顶部)

并行训练演示

LLaMA3

70亿参数LLaMA3模型训练加速18% [代码] [GPU云游乐场] [LLaMA3图片]

LLaMA2

70亿参数LLaMA2模型训练加速195% [代码] [博客]

LLaMA1

65亿参数大模型预训练加速38% [代码] [博客]

MoE

增强MoE并行性，开源的MoE模型训练效率提升9倍 [代码] [博客]

GPT-3

节省50%的GPU资源，加速10.7%

GPT-2

GPU内存消耗降低11倍，使用张量并行实现超线性扩展效率

同一硬件上模型大小增加24倍
加速超过3倍

BERT

训练速度加快2倍，或序列长度延长50%

PaLM

PaLM-colossalai：谷歌路径语言模型(PaLM)的可扩展实现。

OPT

开放预训练Transformer(OPT)，由Meta发布的一个拥有1750亿参数的AI语言模型，因其公开的预训练模型权重，激励AI程序员执行各种下游任务和应用部署。
低成本微调OPT速度提升45%。[示例] [在线服务]

请访问我们的文档和示例了解更多详情。

ViT

批量大小增加14倍，张量并行=64时训练速度加快5倍

单GPU训练演示

GPT-2

SwiftInfer

SwiftInfer：推理性能提升46%，开源解决方案打破多轮对话中LLM的长度限制

(返回顶部)

安装

要求：

PyTorch >= 2.1
Python >= 3.7
CUDA >= 11.0
NVIDIA GPU 计算能力 >= 7.0 (V100/RTX20及更高)
Linux 操作系统

如果安装过程中遇到任何问题，您可以在此仓库中提出一个问题。

从 PyPI 安装

您可以通过以下命令轻松安装 Colossal-AI。默认情况下，我们在安装过程中不构建 PyTorch 扩展。

pip install colossalai

注意：目前仅支持 Linux。

然而，如果您想在安装过程中构建 PyTorch 扩展，您可以设置 BUILD_EXT=1。

BUILD_EXT=1 pip install colossalai

否则，CUDA 内核将在运行时根据需要进行构建。

我们每周也会将夜间版本发布到 PyPI。这使您能够访问主分支中的未发布功能和错误修复。安装命令如下：

pip install colossalai-nightly

从源码下载

Colossal-AI 的版本将与仓库的主分支保持一致。如果遇到任何问题，请随时提出问题。:)

git clone https://github.com/hpcaitech/ColossalAI.git
cd ColossalAI

# 安装 Colossal-AI
pip install .

默认情况下，我们不编译 CUDA/C++ 内核。ColossalAI 会在运行时构建它们。如果您想安装并启用 CUDA 内核融合（使用融合优化器时必须安装）：

BUILD_EXT=1 pip install .

对于使用 CUDA 10.2 的用户，您仍然可以从源码构建 ColossalAI。不过，您需要手动下载 cub 库并将其复制到相应的目录。

# 克隆仓库
git clone https://github.com/hpcaitech/ColossalAI.git
cd ColossalAI

# 下载 cub 库
wget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip
unzip 1.8.0.zip
cp -r cub-1.8.0/cub/ colossalai/kernel/cuda_native/csrc/kernels/include/

# 安装
BUILD_EXT=1 pip install .

(返回顶部)

使用 Docker

从 DockerHub 拉取

您可以直接从我们的 DockerHub 页面拉取 docker 镜像。镜像会在发布时自动上传。

自行构建

运行以下命令，根据提供的 Dockerfile 构建 docker 镜像。

从头开始构建 Colossal-AI 需要 GPU 支持，您需要在 docker build 时使用 Nvidia Docker 运行时作为默认选项。更多详细信息请参见这里。我们建议您直接从我们的项目页面安装 Colossal-AI。

cd ColossalAI
docker build -t colossalai ./docker

运行以下命令以交互模式启动 docker 容器。

docker run -ti --gpus all --rm --ipc=host colossalai bash

(返回顶部)

社区

加入 Colossal-AI 社区：论坛，Slack，以及微信，与我们的工程团队分享您的建议、反馈和问题。

贡献

参考BLOOM 和 Stable Diffusion 的成功尝试，欢迎任何拥有计算资源、数据集、模型的开发者和合作伙伴加入并构建 Colossal-AI 社区，为大规模 AI 模型的时代努力！

您可以通过以下方式联系我们或参与其中：

留下一个星标 ⭐ 表示您的喜爱和支持。谢谢！
在 GitHub 上发布问题或根据贡献指南提交 PR
发送您的正式提案至 contact@hpcaitech.com

非常感谢我们所有的贡献者！

(返回顶部)

CI/CD

我们利用 GitHub Actions 的力量来自动化我们的开发、发布和部署工作流程。请查看文档了解自动化工作流程的操作方式。

引用我们

本项目受一些相关项目的启发（部分来自我们的团队，部分来自其他组织）。我们希望感谢这些了不起的项目，并在参考列表中列出。

要引用本项目，您可以使用以下 BibTeX 引用。

@inproceedings{10.1145/3605573.3605613,
author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang},
title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training},
year = {2023},
isbn = {9798400708435},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3605573.3605613},
doi = {10.1145/3605573.3605613},
abstract = {Transformer 模型的成功推动了深度学习模型规模达到了数十亿参数，但单个 GPU 的内存限制导致了在多 GPU 集群上训练的迫切需求。然而，选择最佳并行策略的最佳实践仍然缺乏，因为它需要深度学习和并行计算方面的领域专业知识。Colossal-AI 系统通过引入一个统一的接口来解决上述挑战，将您的顺序模型训练代码扩展到分布式环境。它支持数据并行、流水线并行、张量并行和序列并行等并行训练方法，并集成了异构训练和零冗余优化器。与基线系统相比，Colossal-AI 在大规模模型上可以实现高达2.76倍的训练加速。},
booktitle = {第52届国际并行处理会议论文集},
pages = {766–775},
numpages = {10},
keywords = {数据集, 视线检测, 文本标注, 神经网络},
location = {盐湖城, UT, 美国},
series = {ICPP '23}
}

Colossal-AI 已被接受为顶级会议的官方教程，如 NeurIPS、SC、[AAAI](https://aaai