#SimCSE
SimCSE - 简单便捷的句子嵌入对比学习工具
SimCSE句子嵌入对比学习无监督学习有监督学习Github开源项目
SimCSE项目提供一个简单的句子嵌入对比学习框架,支持有标签和无标签数据。无监督模型使用标准dropout通过输入句子预测自身,有监督模型利用NLI数据集的注释对进行对比学习。用户可以轻松安装并使用SimCSE进行句子嵌入、相似性计算和句子检索。该项目支持HuggingFace集成和faiss相似性搜索库,并提供全面的模型评估和训练脚本。详细信息和代码请参阅SimCSE仓库。
KoSimCSE-roberta-multitask - 韩语句子嵌入模型实现高效语义相似度计算
模型HuggingfaceGithubRoBERTa预训练模型开源项目SimCSE语义相似度韩语句子嵌入
KoSimCSE-roberta-multitask是一款开源的韩语句子嵌入模型,主要用于计算句子间的语义相似度。在语义文本相似性测试中,该模型的平均得分达到85.77。项目提供预训练模型和推理代码,方便用户进行句子嵌入和相似度计算。同时,它还为个人训练模型提供环境支持,适用于各种自然语言处理和语义分析任务。
unsup-simcse-bert-base-uncased - 无监督对比学习的BERT句向量提取模型
Github模型句子嵌入开源项目SimCSEHuggingface特征提取BERT自然语言处理
Princeton NLP小组开发的SimCSE模型采用BERT架构和无监督对比学习方法,通过英文维基百科数据训练而成。该模型能够有效提取文本特征,在保持语义对齐的同时优化了向量分布,主要应用于句子相似度计算和自然语言处理任务。
bert-base-japanese-v3-unsup-simcse-jawiki - 使用无监督SimCSE的BERT日文模型特性和应用
bert-base-japanese-v3-unsup-simcse-jawikiGithub模型transformers开源项目SimCSEHuggingface大规模语言模型语义相似度
本项目利用无监督SimCSE方法对BERT大型语言模型进行微调,重点在于日文数据集的应用。通过cl-tohoku/bert-base-japanese-v3模型和来自jawiki的句子数据集进行训练,旨在提高语言理解与相似度计算的能力。项目附带丰富的使用案例,例如通过Colab笔记本进行的训练与推论,帮助研究者与开发者了解模型的实际应用。这一无监督方法为自然语言处理任务提供了创新方案,尤其适合有特定语言需求的专业项目。
sup-SimCSE-VietNamese-phobert-base - 越南语句向量生成与对比学习模型
Github句向量编码PhoBERT模型开源项目越南语言模型SimCSEHuggingface自然语言处理
该项目开发了一个越南语句向量生成模型,通过有监督和无监督学习方法进行训练。模型整合了SimCSE和PhoBERT技术,能够准确理解和表示越南语句的语义信息。开发者可以通过sentence-transformers或transformers库快速集成使用,支持文本分词和向量编码等核心功能。模型规模达到1.35亿参数。