这些大型语言模型(LLMs)都被授权用于商业用途(例如,Apache 2.0、MIT、OpenRAIL-M)。欢迎贡献!
| RWKV 5 v2 | 2024/01 | rwkv-5-world-0.4b-2, rwkv-5-world-1.5b-2, rwkv-5-world-3b-2, rwkv-5-world-3b-2(16k), rwkv-5-world-7b-2 | RWKV 5 | 0.4, 1.5, 3, 7 | 无限制(RNN), 在 4096 (以及 16k 针对 3b) 上训练 | Apache 2.0 | |
| OLMo | 2024/02 | OLMo 1B, OLMo 7B, OLMo 7B Twin 2T | AI2 | 1,7 | 2048 | Apache 2.0 | |
| Qwen1.5 | 2024/02 | Qwen1.5-7B, Qwen1.5-7B-Chat, Qwen1.5-14B, Qwen1.5-14B-Chat, Qwen1.5-72B, Qwen1.5-72B-Chat | Introducing Qwen1.5 | 7, 14, 72 | 32k | 自定义 免费,但用户少于 1 亿,且不能使用 Qwen 输出训练其他 LLMs 除了 Qwen 及其衍生品 | |
| LWM | 2024/02 | LWM-Text-Chat-128K, LWM-Text-Chat-256K, LWM-Text-Chat-512K, LWM-Text-Chat-1M, LWM-Text-128K, LWM-Text-256K, LWM-Text-512K, LWM-Text-1M | Large World Model (LWM) | 7 | 128k, 256k, 512k, 1M | LLaMA 2 许可证 | |
| Jais-30b v3 | 2024/03 | jais-30b-v3, jais-30b-chat-v3 | Jais 30b v3 | 30 | 8192 | Apache 2.0 | |
| Gemma | 2024/02 | Gemma 7B, Gemma 7B it, Gemma 2B, Gemma 2B it | 技术报告 | 2-7 | 8192 | Gemma 使用条款 免费,但有使用限制,使用 Gemma 输出训练的模型成为 Gemma 衍生品,需遵守此许可证。 | |
| Grok-1 | 2024/03 | Grok-1 | Grok-1 开源发布 | 314 | 8192 | Apache 2.0 | |
| Qwen1.5 MoE | 2024/03 | Qwen1.5-MoE-A2.7B, Qwen1.5-MoE-A2.7B-Chat | Qwen1.5-MoE: 以 1/3 的激活参数匹配 7B 模型性能 | 14.3 | 8192 | 自定义 免费,但用户少于 1 亿,且不能使用 Qwen 输出训练其他 LLMs 除了 Qwen 及其衍生品 | |
| Jamba 0.1 | 2024/03 | Jamba-v0.1 | Introducing Jamba: AI21 的开创性 SSM-Transformer 模型 | 52 | 256k | Apache 2.0 | |
| Qwen1.5 32B | 2024/04 | Qwen1.5-32B, [Qwen1.5-32B-Chat](https://hugging | OpenELM | 2024/04 | OpenELM-270M, OpenELM-270M-Instruct, OpenELM-450M, OpenELM-450M-Instruct, OpenELM-1_1B, OpenELM-1_1B-Instruct, OpenELM-3B, OpenELM-3B-Instruct | OpenELM: An Efficient Language Model Family with Open Training and Inference Framework | 0.27, 0.45, 1.1, 3 | 2048 | Custom open license 无使用或训练限制 | Snowflake Arctic | 2024/04 | snowflake-arctic-base, snowflake-arctic-instruct | Snowflake Arctic: The Best LLM for Enterprise AI — Efficiently Intelligent, Truly Open | 480 | 4096 | Apache 2.0 | | | Qwen1.5 110B | 2024/04 | Qwen1.5-110B, Qwen1.5-110B-Chat | Qwen1.5-110B: The First 100B+ Model of the Qwen1.5 Series | 110 | 32k | Custom 免费使用,如用户少于1亿,不得将Qwen输出用于训练其他LLM模型,除了Qwen及其衍生产品 | | | RWKV 6 v2.1 | 2024/05 | rwkv-6-world-1.6b-2.1, rwkv-6-world-3b-2.1, rwkv-6-world-7b-2.1 | RWKV 6 | 1.6, 3, 7 | unlimited(RNN), trained on 4096 | Apache 2.0 | | | DeepSeek-V2 | 2024/05 | DeepSeek-V2, DeepSeek-V2-Chat | DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model | 236 | 128k | Custom 免费使用但有限制,使用DeepSeek输出训练的模型将成为DeepSeek衍生产品,受此许可证约束 | | | Fugaku-LLM | 2024/05 | Fugaku-LLM-13B, Fugaku-LLM-13B-instruct | Release of "Fugaku-LLM" – a large language model trained on the supercomputer "Fugaku" | 13 | 2048 | Custom 免费使用但有使用限制 | | | Falcon 2 | 2024/05 | falcon2-11B | Meet Falcon 2: TII Releases New AI Model Series, Outperforming Meta’s New Llama 3 | 11 | 8192 | Custom Apache 2.0 with mild acceptable use policy | | | Yi-1.5 | 2024/05 | Yi-1.5-6B, Yi-1.5-6B-Chat, Yi-1.5-9B, Yi-1.5-9B-Chat, Yi-1.5-34B, Yi-1.5-34B-Chat | Yi-1.5 | 6, 9, 34 | 4096 | Apache 2.0 | | | DeepSeek-V2-Lite | 2024/05 | DeepSeek-V2-Lite, DeepSeek-V2-Lite-Chat | DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model | 16 | 32k | Custom 免费使用但有限制,使用DeepSeek输出训练的模型将成为DeepSeek衍生产品,受此许可证约束 | | | Phi-3 small/medium | 2024/05 | Phi-3-mini-4k-instruct, Phi-3-mini-128k-instruct, Phi-3-medium-4k-instruct, Phi-3-medium-128k-instruct | New models added to the Phi-3 family, available on Microsoft Azure, Technical Report | 7, 14 | 4096, 128k | MIT | |
开放 LLM 预训练数据集
名称 | 发布日期 | 论文/博客 | 数据集 | 代币 (T) | 许可证 |
---|---|---|---|---|---|
RedPajama | 2023/04 | RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens | RedPajama-Data | 1.2 | Apache 2.0 |
starcoderdata | 2023/05 | StarCoder: A State-of-the-Art LLM for Code | starcoderdata | 0.25 | Apache 2.0 |
开放 LLM 指令微调数据集
名称 | 发布日期 | 论文/博客 | 数据集 | 样本量 (K) | 许可证 |
---|---|---|---|---|---|
OIG (Open Instruction Generalist) | 2023/03 | THE OIG DATASET | OIG | 44,000 | Apache 2.0 |
databricks-dolly-15k | 2023/04 | Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM | databricks-dolly-15k | 15 | CC BY-SA-3.0 |
MPT-7 |