#文本相似度

similarity - 文本相似度计算工具,支持多种算法及情感分析
similarity文本相似度Java情感分析word2vecGithub开源项目
similarity是一个用Java编写的相似度计算工具包,适用于词语、短语、句子和段落的相似度计算及情感分析。其特点包括高效的词林编码法和余弦相似度算法,以及基于词向量模型的近义词推荐功能。该工具包架构清晰,模型惰性加载,词典明文发布,便于用户训练自定义语料,满足多种自然语言处理需求。
similarities - 文本和图像相似度计算与语义搜索的高效工具
similaritiesCLIP文本相似度语义搜索图像相似度Github开源项目
该工具包提供多种文本和图像相似度计算及语义匹配算法,支持高效处理亿级数据。主要功能包含文本相似度计算、文本搜索、图文匹配、图像搜索等多种算法。项目采用Python3开发,支持命令行操作,基于PyTorch和FastAPI等技术,可实现多语言环境下的高效向量表示及检索,开箱即用。
text2vec - 多模型文本向量化工具,支持多语言文本匹配分析
Text2vec文本向量化文本相似度模型训练BERTGithub开源项目
text2vec工具实现了多种文本向量表示和相似度计算模型,如Word2Vec、BERT、Sentence-BERT和CoSENT。最新版本增加了多卡推理和命令行工具,方便用户批量处理文本向量化。它在中英文测试集上的表现优秀,尤其新版中文匹配模型在短文本区分上有显著提升。该工具为中文和多语言文本匹配提供了丰富的支持,能够满足各种文本语义分析任务的需求。
jina-embeddings-v2-base-es - 双语智能文本嵌入模型 英语和西班牙语文本向量化解决方案
特征提取开源项目sentence-transformers模型文本相似度机器学习Github自然语言处理Huggingface
这是一款针对英语和西班牙语优化的文本嵌入模型。在MTEB基准测试中表现优异,可高效处理文本分类、检索和聚类等任务。模型支持跨语言文本相似度计算,适用于双语内容处理场景。基于sentence-transformers框架开发,具备出色的文本特征提取能力。
instructor-xl - 基于T5架构的开源文本嵌入模型
文本相似度Huggingface开源项目模型transformersGithub模型评估文本分类自然语言处理
instructor-xl是一个基于transformer架构和T5模型的文本嵌入工具,主要应用于句子相似性计算、信息检索和文本分类任务。该模型已完成多项基准测试评估,包括自然问题回答、文本分类和语义相似度分析等。模型当前主要支持英语文本处理,可用于构建各类自然语言处理应用。
Solon-embeddings-base-0.1 - 开源法语句子相似度模型增强段落检索
Solon-embeddings-base-0.1开源OrdalieTechHuggingface文本相似度Github开源项目模型法语嵌入模型
该开源项目专注于生成法语句子相似度嵌入模型,并在mMARCO-fr数据集上取得优异的Recall@500和Recall@100结果。模型在各种法语基准测试中表现出色,适合用于分类、排序及STS任务。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号