项目概述
这是一个基于xlm-roberta-base模型转换的ONNX格式的语言检测模型。该项目通过使用🤗 Optimum库将原始的papluca/xlm-roberta-base-language-detection模型转换为ONNX格式,使其具有更好的部署性能。
模型特点
该模型是在Language Identification数据集上微调的xlm-roberta-base版本。它采用了XLM-RoBERTa转换器架构,并在其上添加了分类头部(即在池化输出之上的线性层)。这种架构设计使其能够有效处理序列分类任务。
支持语言
该模型目前支持20种语言的检测,包括:
- 阿拉伯语(ar)
- 保加利亚语(bg)
- 德语(de)
- 现代希腊语(el)
- 英语(en)
- 西班牙语(es)
- 法语(fr)
- 印地语(hi)
- 意大利语(it)
- 日语(ja)
- 荷兰语(nl)
- 波兰语(pl)
- 葡萄牙语(pt)
- 俄语(ru)
- 斯瓦希里语(sw)
- 泰语(th)
- 土耳其语(tr)
- 乌尔都语(ur)
- 越南语(vi)
- 中文(zh)
使用方法
要使用该模型,需要先安装🤗 Optimum库。使用时,用户可以通过ORTModelForSequenceClassification加载模型,并结合AutoTokenizer进行文本的分词处理。通过pipeline可以快速构建一个文本分类器,实现语言检测功能。
社区支持
该项目提供了Slack社区支持,用户可以在社区中:
- 提供使用反馈
- 与维护者和其他用户交流
- 提出问题
- 参与有关LLM安全的讨论
应用场景
该模型主要用于语言检测任务,可以应用在:
- 多语言文本分类
- 语言识别系统
- 文本预处理流程
- LLM Guard的语言扫描功能