#Roberta
readability-es-3class-paragraphs - 西班牙语文本可读性三级分类模型
RobertaHuggingface西班牙语模型可读性评估GithubBERTIN开源项目自然语言处理
该模型基于Roberta架构并经BERTIN微调,用于评估西班牙语文本可读性。它将文本分为基础、中级和高级三个级别,在验证集上F1宏平均分数达0.7881。模型使用多个公开和非公开数据集训练,包括coh-metrix-esp语料库。作为readability-es系列的变体,它采用段落级别分类。由于缺乏可靠的测试集,性能指标基于验证集报告。模型可能存在一些局限性,如语言偏向西班牙方言,其他地区变体可能表现不佳。
all-MiniLM-L6-v2-similarity-es - 西班牙语句子相似性与聚类分析的高效模型
Github嵌入模型sentence-transformers开源项目模型RobertaHuggingface句子相似性相似句子数据集
该微调模型专注于西班牙语句子相似性任务,使用sentence-transformers框架,将语句转换为768维向量,支持语义搜索和聚类。便捷安装:通过pip获取sentence-transformers或使用HuggingFace Transformers进行高级处理。训练于西班牙语相似句子数据集,取得了80.1%的斯皮尔曼相关性。