活字通用大模型项目介绍
项目概述
活字通用大模型是由哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)推出的自然语言处理模型,旨在提升中英文处理和推理能力。活字系列模型自问世以来便获得了学术界和工业界的广泛关注,其最新版本为活字3.5。
更新记录
活字模型持续更新,不断推出新版本以提升性能:
- 2024年9月,发布活字3.5版本。
- 2023年初至年中,陆续发布了活字1.0和2.0版本,供研究和应用使用。
项目特点
多语言支持与强大推理能力
活字3.5在活字3.0和Chinese-Mixtral基础上优化而成,支持32K长上下文,具备丰富的中英文知识、优秀的数学推理能力、代码生成能力和内容安全性。它是一个稀疏混合专家模型(SMoE),通过专业的训练步骤确保模型在多领域的出色表现。
模型训练与结构
活字3.5训练经历了多个关键阶段,包括中文扩词表增量预训练、活字3.0指令数据微调、指令遵循能力强化和模型融合后微调,最终实现多方面能力提升。采用稀疏激活机制,模型拥有46.7B参数,推理时仅需激活13B参数,极大提升了计算效率。
模型性能与测试
活字3.5在多个综合评测数据集上表现出色,包括中英文知识测评、中英文指令遵循测试、数学和代码生成能力考试等,均超越或接近当前顶尖模型表现。
下载与使用
活字3.5及其中间检查点可通过HuggingFace和ModelScope平台下载。用户可利用多种框架进行模型推理,如Transformers、vLLM、llama.cpp等,进一步实现模型的商业或科研应用。
开源协议与使用许可
活字模型开放源码,遵循Apache 2.0协议,支持商用用途。商用使用需与许可方联系以获取授权。
活字系列的持续改进和完善,不仅为研究者提供了坚实的基础工具,也为实际应用带来了广阔的前景。如果您对大规模语言模型研究感兴趣,活字通用大模型项目无疑是您不错的选择。