项目概述
sup-simcse-ja-large是一个专门为日语设计的句子向量模型,它能够将日语文本转换为高质量的向量表示。该模型基于BERT架构,通过监督学习方式训练而成,主要用于文本相似度计算、文本检索等自然语言处理任务。
技术特点
- 基础模型采用cl-tohoku/bert-large-japanese-v2
- 使用监督式SimCSE方法进行微调
- 训练数据集采用JSNLI(日本语自然语言推理数据集)
- 采用cls池化策略,训练时使用额外的MLP层
- 模型隐藏层维度为1024
- 支持最大序列长度为64
- 使用BFloat16数据类型进行训练
使用方法
这个模型提供了两种使用方式:
- 通过sentence-transformers库使用:
- 首先需要安装必要的依赖包,包括fugashi[unidic-lite]和sentence-transformers
- 使用简单,只需几行代码即可完成文本编码
- 特别适合处理日语文本的向量化需求
- 通过HuggingFace Transformers库使用:
- 提供更底层的实现方式
- 需要手动处理tokenization和池化操作
- 适合需要更细粒度控制的场景
训练细节
模型训练采用了以下参数配置:
- 学习率设置为5e-5
- 批次大小为512
- 温度系数为0.05
- 训练样本数量为2^20
- 验证间隔为2^6步
- 预热比例为0.1
应用场景
该模型可以应用于多个日语自然语言处理任务,例如:
- 文本相似度计算
- 语义搜索
- 文本聚类
- 文档检索
- 问答系统
开源贡献
项目采用cc-by-sa-4.0许可证,开发者可以自由使用和修改。详细的实验设置和更多信息可以在GitHub仓库中查看。这个项目的发布为日语自然语言处理领域提供了一个重要的工具,推动了相关研究和应用的发展。