RULM 项目简介
RULM (Russian Language Modeling) 是一个致力于俄语语言建模和指令微调的开源项目。该项目由 Ilya Gusev 主导开发,旨在为俄语自然语言处理提供高质量的语言模型和数据集。
RULM 项目的主要特点包括:
- 提供了多个针对俄语优化的大型语言模型
- 发布了多个高质量的俄语指令微调数据集
- 进行了全面的模型评测和对比实验
- 开源了模型训练和推理的相关代码
下面我们来详细了解 RULM 项目的主要组成部分。
模型
RULM 项目提供了多个针对俄语优化的大型语言模型:
RuTurboAlpaca 系列
这两个模型基于 LLaMA 模型,使用 LoRA 技术在俄语 Alpaca 数据集上进行了微调。
Saiga 系列
Saiga 系列模型基于 LLaMA 和 LLaMA 2,在多个俄语指令数据集上进行了微调。
数据集
RULM 项目发布了多个高质量的俄语指令微调数据集:
RuTurboAlpaca
- HuggingFace 链接: IlyaGusev/ru_turbo_alpaca
- 这是一个使用 GPT-3.5-turbo 生成的俄语指令数据集
- 生成脚本: generate_instructions.py
Saiga Chat
- HuggingFace 链接: IlyaGusev/ru_turbo_saiga
- 这是一个使用 ChatGPT 生成的俄语多轮对话数据集
- 生成脚本: generate_chat.py
GPT Role-play Realm
- HuggingFace 链接: IlyaGusev/gpt_roleplay_realm
- 这是一个包含 200+ 个 GPT 生成角色及其对话的数据集
模型评测
RULM 项目进行了全面的模型评测,包括:
- 人工评测:使用 Toloka 众包平台进行模型输出质量的人工评估
- RSG 评测:在 RussianSuperGLUE 基准上评估模型性能
详细的评测结果可以在 GitHub README 中查看。
相关资源
RULM 项目为俄语自然语言处理提供了宝贵的资源。无论你是研究人员还是开发者,都可以利用这些开源模型和数据集来推进俄语 NLP 的发展。欢迎访问 RULM GitHub 仓库 了解更多详情!