项目概述
bert-base-spanish-wwm-cased-xnli是一个基于西班牙语BERT模型fine-tuned的零样本文本分类模型。该模型由Recognai团队开发,旨在为西班牙语文本提供高质量的零样本分类能力。
模型特点
- 基于dccuchile/bert-base-spanish-wwm-cased预训练模型
- 使用XNLI数据集的西班牙语部分进行微调
- 专门用于零样本文本分类任务
- 在XNLI-es测试集上取得79.9%的准确率
- 支持Hugging Face的零样本分类pipeline
使用方法
用户可以通过Hugging Face的transformers库轻松调用该模型:
- 首先导入pipeline
- 加载"Recognai/bert-base-spanish-wwm-cased-xnli"模型
- 准备待分类文本和候选标签
- 调用classifier函数进行预测
模型会返回每个候选标签的概率得分,用户可根据得分进行标签选择。
应用场景
该模型适用于各种西班牙语文本分类任务,尤其是在缺乏标注数据的情况下。常见应用包括:
- 新闻分类
- 客户反馈分类
- 社交媒体内容分析
- 文档自动标记
模型更新
开发团队在2021年10月推出了更轻量级的zero-shot SELECTRA模型,性能甚至超过了本模型。用户可以根据具体需求选择合适的模型版本。
许可证
该模型采用MIT许可证发布,允许用户自由使用、修改和分发。
总的来说,bert-base-spanish-wwm-cased-xnli为西班牙语文本分类提供了一个强大而灵活的解决方案,尤其适合零样本学习场景。