Skywork 项目介绍
项目概述
Skywork 是由昆仑万维集团·天工团队开发的一系列大型模型,旨在通过开源模型和数据集推动人工智能领域的发展。Skywork 系列包括多个模型,如 Skywork-13B-Base、Skywork-13B-Chat、Skywork-13B-Math 和 Skywork-13B-MM,这些模型针对不同的应用领域提供优化的解决方案。此外,每个模型的量化版也已开源,使用户能够在消费级显卡上进行部署和推理。Skywork 系列模型可用于商业用途,但需要遵循项目协议,不进行有害活动。
Skywork 模型特性
-
Skywork-13B-Base:该模型基于 3.2 万亿高质量的多语言数据(主要为中文和英文)和代码数据进行预训练,在各种评测和基准测试中表现优异。
-
Skywork-13B-Chat:具备强大的对话能力,特别在文创领域中表现出色。通过高质量的指令数据集和文创任务微调,使其在这一领域接近 ChatGPT 的效果,并提供相应的 benchmark 样本。
-
Skywork-13B-Math:经过专门的数学能力训练,在 GSM8K 评测中取得第一,并在 MATH 和 CMATH 数据集上表现出色。
-
Skywork-13B-MM:支持多模态信息输入,例如图片,通过该模型用户可进行问答和对话等任务。
公开数据集
- Skywork/Skypile-150B:来自中文网页的高质量数据集,约 600GB,总 token 数量约为 150B,是目前最大的开源中文数据集。
评估与更新
Skywork 开源了完整的评估方法、数据研究及训练方案。这些内容旨在帮助社区更好地理解大模型的预训练过程,促进通用人工智能(AGI)的实现。
近期更新包括重新开放了经过审核的 150B 中文预训练语料,并发布了相关评估数据集和技术报告。
模型下载和资源
Skywork模型和数据在多个平台上提供,包括 HuggingFace、ModelScope、Wisemodel 和 OpenXLab 等。
- 下载地址:
- 模型和量化模型提供在平台的基础与量化版。
- 数据集与评估集也可通过多个平台下载。
模型结构与训练
Skywork 模型结构相对瘦长,与 Llama-2-13B 相比,通过调整 FFN Dim 和 Hidden Dim 来达到更好的泛化效果。
未来展望
Skywork 项目致力于推动大型模型的应用和发展,未来将继续优化现有模型,探索更多应用领域并持续为社区提供更多的开源资源。
如需查看详细的技术报告与学术论文,欢迎访问 Skywork 项目的官方网站和平台。