distilrubert-small-cased-conversational项目介绍
distilrubert-small-cased-conversational是一个经过知识蒸馏的小型俄语对话模型。它是基于更大的Conversational RuBERT模型蒸馏而来,保留了原模型的主要性能,同时大大减小了模型体积,提高了推理速度。
模型特点
- 这是一个2层768维隐藏层的小型BERT模型,参数量为107M
- 模型经过大规模俄语对话数据的预训练,包括OpenSubtitles、Dirty、Pikabu等数据集
- 采用了多种蒸馏技术,如KL散度、MLM损失、余弦嵌入损失和MSE损失等
- 模型体积从679MB减小到409MB,推理速度提升2-4倍
训练细节
- 训练时间约80小时,使用8块NVIDIA Tesla P100 GPU
- 在多个下游任务上进行了微调评估,包括分类、命名实体识别和问答任务
- 具体评估结果可以在DeepPavlov文档和相关论文中查看
性能对比
与原始的RuBERT-base模型相比:
- CPU上单样本推理时间从0.655秒减少到0.1656秒
- GPU上单样本推理时间从0.031秒减少到0.015秒
- CPU吞吐量从0.3754样本/秒提升到0.9692样本/秒
- GPU吞吐量从36.4902样本/秒提升到71.3553样本/秒
应用价值
该模型在保持较好性能的同时,大大降低了计算资源需求,适合在资源受限的场景下部署俄语对话系统。它为构建更轻量、高效的俄语NLP应用提供了良好的基础。
开源贡献
项目代码和预训练模型权重已在Hugging Face开源。研究人员可以直接使用该模型,也可以在此基础上进行进一步的优化和应用开发。项目团队同时公开了详细的技术报告,为后续的模型蒸馏研究提供了宝贵参考。