项目概述
这是一个名为gbert-large-paraphrase-cosine的德语BERT大型模型项目,它基于sentence-transformers框架开发,主要用于文本相似度计算和少样本文本分类任务。该模型能够将句子和段落文本映射到1024维的密集向量空间中。
技术特点
该模型是在deepset/gbert-large的基础上进行改进的。它采用了MultipleNegativesRankingLoss作为损失函数,并使用余弦相似度进行计算。在训练过程中,模型使用了精心筛选的deutsche-telekom/ger-backtrans-paraphrase数据集,并对数据进行了严格的过滤,包括字符长度、相似度、token数量等多个维度的限制。
训练参数
模型训练采用了以下超参数设置:
- 学习率: 8.345726930229726e-06
- 训练轮次: 7
- 批次大小: 57
- GPU数量: 1
性能评估
通过NLU Few-shot Benchmark数据集的评估,该模型在德语少样本场景下表现出色:
- 相比多语言句子嵌入模型表现更好
- 优于Electra类模型
- 超过了德语BERT基础版本的性能
- 与德语BERT大型模型相当
- 在经过fine-tune后取得了最佳效果
应用场景
该模型主要适用于以下场景:
- 德语文本相似度计算
- 德语少样本文本分类
- 文本向量化表示
- SetFit框架集成应用
版权说明
该项目采用MIT许可证,由Philip May和Deutsche Telekom AG于2023年开发,部分版权归属于deepset GmbH(2022年)。使用者需要遵守MIT许可证的相关规定。