sentence-bert-base-italian-xxl-uncased - 提升语义分析与聚类效果的意大利语句子相似度模型

项目介绍：sentence-bert-base-italian-xxl-uncased

sentence-bert-base-italian-xxl-uncased 是一个用于意大利语的句子嵌入模型。这个模型基于sentence-transformers框架开发，能够将句子和段落映射到768维的密集向量空间。这样的映射在聚类和语义搜索等任务中非常有用。此模型派生于dbmdz/bert-base-italian-xxl-uncased，能对相似度进行有效计算。

使用场景

该模型的主要应用在于句子相似性任务。用户可以通过安装sentence-transformers轻松使用此模型。它提供两种使用方式：通过sentence-transformers进行简单调用，或通过HuggingFace Transformers库进行更复杂的操作。

模型的使用方法

使用sentence-transformers

使用sentence-transformers库时，先安装依赖：

pip install -U sentence-transformers

然后，通过以下代码调用模型：

from sentence_transformers import SentenceTransformer
sentences = ["Una ragazza si acconcia i capelli.", "Una ragazza si sta spazzolando i capelli."]

model = SentenceTransformer('nickprock/sentence-bert-base-italian-xxl-uncased')
embeddings = model.encode(sentences)
print(embeddings)

使用HuggingFace Transformers

无需sentence-transformers库，同样可以使用HuggingFace Transformers库来调用模型，需要手动进行池化操作：

from transformers import AutoTokenizer, AutoModel
import torch

# 平均池化操作
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


sentences = ['Una ragazza si acconcia i capelli.', 'Una ragazza si sta spazzolando i capelli.']

tokenizer = AutoTokenizer.from_pretrained('nickprock/sentence-bert-base-italian-xxl-uncased')
model = AutoModel.from_pretrained('nickprock/sentence-bert-base-italian-xxl-uncased')

encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

with torch.no_grad():
    model_output = model(**encoded_input)

sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

模型评估

模型通过Sentence Embeddings Benchmark进行了自动化评估，具体评估结果可以在此处查阅：Sentence Embeddings Benchmark。

模型训练

模型使用以下参数进行训练：

数据加载器：torch.utils.data.dataloader.DataLoader 长度为360，批量大小为16。
损失函数：sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss
训练参数：
- 训练周期：10
- 评估步数：500
- 优化器：AdamW，学习率2e-05
- 学习率调度：WarmupLinear
- 权重衰减：0.01

全模型架构

完整的模型架构如下：

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

通过这种架构，模型能够高效地进行句子嵌入计算，为用户提供精准的语义相似度评估。