Linly - 中文LLaMA和Falcon模型：优化的中文预训练和对话能力

Linly 项目介绍

项目概览

Linly项目是一个专注于中文对话和基础语言模型的开发和研究的开源项目。项目中提供了多个在中文和中英文数据上进行训练的大型语言模型，包括Linly-ChatFlow、Chinese-LLaMA（1-2）、Chinese-Falcon以及从头训练的Linly-OpenLLaMA等。这些模型在对话、知识问答等多种应用场景中展示了卓越的能力。

模型介绍

Linly-Chinese-LLaMA

Linly-Chinese-LLaMA是基于LLaMA模型进行增量预训练的中文基础模型。在实现上，项目在中文和中英平行语料上对模型进行了训练，使其能够在中文任务中表现出色。此外，项目还对这些模型进行了大量的多语言指令训练，形成了Linly-ChatFlow对话模型。

Linly-OpenLLaMA

Linly-OpenLLaMA模型是从头开始训练的语言模型，包含了3B、7B和13B的不同规模。该模型使用1TB的中英文语料数据进行预训练，并针对中文进行了优化，尤其是在字词结合的tokenizer设计上。Linly-OpenLLaMA以Apache 2.0协议开源，支持商业用途。

Chinese-Falcon

Chinese-Falcon模型是在Falcon模型的基础上扩充中文词汇表的基础模型，并且在大规模中文语料上进行了增量预训练。这个模型以Apache License 2.0协议开源，适合于商业应用。

技术特性

训练与部署：项目提供了完整的训练、代码以及评估流程，使模型的细节透明且可复现。项目支持HuggingFace和TencentPretrain两大版本，并提供不同的量化方案，支持在CUDA和边缘设备上进行部署和推理。
更新与发布：项目持续进行模型的迭代更新。在训练和性能指标上，模型如Linly-70B在多个基准评估中表现卓越。