#文本相似度

similarity - 文本相似度计算工具，支持多种算法及情感分析

Github开源项目Java情感分析文本相似度similarityword2vec

similarity是一个用Java编写的相似度计算工具包，适用于词语、短语、句子和段落的相似度计算及情感分析。其特点包括高效的词林编码法和余弦相似度算法，以及基于词向量模型的近义词推荐功能。该工具包架构清晰，模型惰性加载，词典明文发布，便于用户训练自定义语料，满足多种自然语言处理需求。

similarities - 文本和图像相似度计算与语义搜索的高效工具

Github开源项目语义搜索CLIP文本相似度similarities图像相似度

该工具包提供多种文本和图像相似度计算及语义匹配算法，支持高效处理亿级数据。主要功能包含文本相似度计算、文本搜索、图文匹配、图像搜索等多种算法。项目采用Python3开发，支持命令行操作，基于PyTorch和FastAPI等技术，可实现多语言环境下的高效向量表示及检索，开箱即用。

text2vec - 多模型文本向量化工具，支持多语言文本匹配分析

Github开源项目模型训练BERTText2vec文本向量化文本相似度

text2vec工具实现了多种文本向量表示和相似度计算模型，如Word2Vec、BERT、Sentence-BERT和CoSENT。最新版本增加了多卡推理和命令行工具，方便用户批量处理文本向量化。它在中英文测试集上的表现优秀，尤其新版中文匹配模型在短文本区分上有显著提升。该工具为中文和多语言文本匹配提供了丰富的支持，能够满足各种文本语义分析任务的需求。

rubert-tiny2 - 优化的俄语自然语言处理模型

Github开源项目自然语言处理BERT模型Huggingface文本相似度句子嵌入俄语模型

作为rubert-tiny的改进版本，rubert-tiny2是一个精简的俄语BERT编码器。它拥有更大的词汇表和更长的序列支持，能更好地逼近LaBSE嵌入效果。该模型可直接用于生成句子嵌入或进行下游任务微调，适用于短文本KNN分类等应用场景。通过与transformers和sentence_transformers库的无缝集成，rubert-tiny2为俄语自然语言处理任务提供了简便而强大的工具。

nomic-embed-text-v1.5 - 先进的文本嵌入模型用于语义分析和相似度计算

Github开源项目自然语言处理模型HuggingfaceMTEBsentence-transformers文本相似度特征提取

nomic-embed-text-v1.5是一款文本嵌入模型，专注于文本向量化和语义相似度计算。该模型在文本分类、检索、聚类和语义相似度评估等多项自然语言处理任务中表现优异。虽主要针对英语文本，但也支持多语言处理。在MTEB基准测试中的出色表现凸显了其在实际应用中的广泛潜力。

GIST-all-MiniLM-L6-v2 - 多语言句子相似度和特征提取模型

Github开源项目深度学习自然语言处理模型模型评估Huggingfacesentence-transformers文本相似度

GIST-all-MiniLM-L6-v2是一个用于句子相似度计算和特征提取的模型。该模型在MTEB基准测试中表现优异，涵盖分类、检索、聚类和语义文本相似度等任务。支持多语言处理，适用于文本分类、信息检索和语义搜索等自然语言处理应用。其轻量高效的特性适合需要高性能句子嵌入的项目。

nomic-embed-text-v1 - 多语言文本嵌入模型适用于多种NLP任务

Github开源项目自然语言处理机器学习模型Huggingfacesentence-transformers文本相似度特征提取

nomic-embed-text-v1是一个文本嵌入模型，支持多语言处理和多种NLP任务。该模型在句子相似度、文本分类、聚类等任务中表现良好，可为下游应用提供文本表示。通过深度学习技术，该模型能够捕捉文本语义信息，为自然语言处理任务提供支持。

m3e-base - 中英双语文本嵌入模型，支持多种自然语言处理任务

Github开源项目微调模型Huggingface文本嵌入sentence-transformers文本相似度M3E

M3E是一个开源的文本嵌入模型，在2200万+中文句对数据集上训练。该模型支持中英双语的文本相似度计算和检索，适用于文本分类、检索等多种自然语言处理任务。M3E在MTEB-zh基准测试中表现优异，多项指标超越了OpenAI的同类模型。它易于使用和微调，完全兼容sentence-transformers生态系统。

e5-small-v2 - 轻量级多语言嵌入模型用于语义搜索和自然语言处理

Github开源项目自然语言处理模型模型评估HuggingfaceMTEBsentence-transformers文本相似度

e5-small-v2是一款轻量级多语言嵌入模型，适用于语义搜索和自然语言处理任务。该模型在MTEB基准测试中表现优异，涵盖文本分类、检索、聚类和语义相似度等多个领域。尽管体积小巧，e5-small-v2仍能有效处理多种语言，为开发者提供了一个高效且多用途的嵌入解决方案。

Solon-embeddings-large-0.1 - 法语嵌入模型Solon在多项自然语言处理任务中表现优异

Github开源项目自然语言处理模型Huggingface信息检索MTEB文本相似度法语嵌入模型

Solon-embeddings-large-0.1是一个法语嵌入模型,在句子相似度、聚类、重排序、检索和分类等多项自然语言处理任务中表现出色。该模型可应用于文本分类、信息检索和语义相似度计算等领域,为法语自然语言处理提供了有力支持。

sentence-bert-base-italian-uncased - 意大利语句向量模型支持文本特征提取和语义相似度计算

Github开源项目自然语言处理模型训练模型Huggingfacesentence-transformers文本相似度句向量模型

该模型是基于BERT架构的意大利语sentence-transformers模型，可将文本映射为768维向量。它支持文本特征提取、语义相似度计算和文本聚类等任务，适用于意大利语自然语言处理场景。模型使用CosineSimilarityLoss训练，并提供了详细的使用示例，可通过sentence-transformers或HuggingFace Transformers库轻松集成。

jina-embeddings-v2-base-es - 双语智能文本嵌入模型英语和西班牙语文本向量化解决方案

Github开源项目自然语言处理机器学习模型Huggingfacesentence-transformers文本相似度特征提取

这是一款针对英语和西班牙语优化的文本嵌入模型。在MTEB基准测试中表现优异，可高效处理文本分类、检索和聚类等任务。模型支持跨语言文本相似度计算，适用于双语内容处理场景。基于sentence-transformers框架开发，具备出色的文本特征提取能力。

sentence-camembert-large - 基于CamemBERT的法语句子语义嵌入模型

Github开源项目自然语言处理机器学习模型Huggingface文本相似度语义嵌入CamemBERT

一个专门面向法语文本的语义嵌入模型，基于'facebook/camembert-large'和'Siamese BERT-Networks'技术开发。模型通过数学向量表示法语句子语义，在STS基准测试中达到85.9%的皮尔逊相关系数。适用于语义搜索和文本相似度计算等应用场景，是当前性能领先的法语句子嵌入模型。

instructor-xl - 基于T5架构的开源文本嵌入模型

Github开源项目自然语言处理模型transformers模型评估Huggingface文本分类文本相似度

instructor-xl是一个基于transformer架构和T5模型的文本嵌入工具，主要应用于句子相似性计算、信息检索和文本分类任务。该模型已完成多项基准测试评估，包括自然问题回答、文本分类和语义相似度分析等。模型当前主要支持英语文本处理，可用于构建各类自然语言处理应用。

Solon-embeddings-base-0.1 - 开源法语句子相似度模型增强段落检索

Github开源项目开源模型Huggingface文本相似度法语嵌入模型Solon-embeddings-base-0.1OrdalieTech

该开源项目专注于生成法语句子相似度嵌入模型，并在mMARCO-fr数据集上取得优异的Recall@500和Recall@100结果。模型在各种法语基准测试中表现出色，适合用于分类、排序及STS任务。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号