dbrx - 大规模开源语言模型DBRX，支持灵活定制

项目介绍：DBRX

DBRX 是 Databricks 训练的大型语言模型，采用开放许可发布。这个项目提供了运行推理所需的基本代码和示例，同时也收集了一些使用 DBRX 的资源和链接。

模型详情

DBRX 是一个专家混合（Mixture-of-Experts, MoE）模型，总参数量为 1320 亿，其中 360 亿为活跃参数。其设计使用了 16 个专家模块，每次训练或推理时有 4 个活跃。该模型预训练了 12 万亿个文本标记，拥有 32K 的上下文长度。

目前开源的模型包括：

DBRX Base：预训练基础模型
DBRX Instruct：面向指令微调的模型

这些模型利用了开放源代码库中的优化版本进行训练，包括 Composer、LLM Foundry、MegaBlocks 和 Streaming。特别是 DBRX Instruct 模型，使用了 ChatML 格式进行训练。

快速开始

要下载权重和分词器，用户需先访问 DBRX 的 Hugging Face 页面并接受其许可。注意：访问基本模型需手动批准。

建议至少拥有 320GB 的内存来运行模型。以下为运行步骤：

pip install -r requirements.txt # 或 requirements-gpu.txt 以在 GPU 上使用快速注意力机制
huggingface-cli login           # 添加您的 Hugging Face 令牌以访问模型
python generate.py              # 参见 generate.py 更改提示和其他设置

有关更高级的用法，请参阅 LLM Foundry：

如果遇到包安装问题，推荐使用我们的 Docker 镜像：mosaicml/llm-foundry:2.2.1_cu121_flash2-latest。