bigscience
目前我们有2个代码仓库:
- https://github.com/bigscience-workshop/Megatron-DeepSpeed - 这是我们主要的代码库
- https://github.com/bigscience-workshop/bigscience - (这个仓库)包含其他所有内容 - 文档、实验等。
目前,这个仓库中最活跃的部分有:
- JZ - 有很多关于我们工作环境的信息,帮助评估、计划和完成任务
- 实验 - 许多实验正在进行中。文档、结果表、脚本和日志都在这里
- 数据集信息
- 训练 - 包含了关于当前训练的所有信息(见下文最重要的部分)
我们针对特定方面有README,例如:
训练
虽然我们对一些主要训练的实验和发现进行了详细记录,但这里有一份包含最重要发现的文档:学习到的经验
Train 1 - 13B - 未修改的Megatron gpt2 - 基线
你可以通过运行下面的 tail -f
类似的脚本实时观看训练日志,这个脚本会每小时同步到hub:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (\d+)/; \
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}' \
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
Train 3
架构和扩展基线运行:没有花哨的技巧,只是GPT2。以下是相应的tensorboards链接:
Train 8
104B - 未修改的Megatron gpt2 - 具有超宽隐藏层,以学习如何处理训练不稳定性
你可以通过运行下面的 tail -f
类似的脚本实时观看训练日志,这个脚本会每小时同步到hub:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (\d+)/; \
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}' \
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
Train 11
这是当前的主要训练
tr11-176B-ml
你可以通过运行下面的 tail -f
类似的脚本实时观看训练日志,这个脚本会每小时同步到hub:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (\d+)/s; \
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}' \
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt