#文本相似度

similarity - 文本相似度计算工具,支持多种算法及情感分析
Github开源项目Java情感分析文本相似度similarityword2vec
similarity是一个用Java编写的相似度计算工具包,适用于词语、短语、句子和段落的相似度计算及情感分析。其特点包括高效的词林编码法和余弦相似度算法,以及基于词向量模型的近义词推荐功能。该工具包架构清晰,模型惰性加载,词典明文发布,便于用户训练自定义语料,满足多种自然语言处理需求。
similarities - 文本和图像相似度计算与语义搜索的高效工具
Github开源项目语义搜索CLIP文本相似度similarities图像相似度
该工具包提供多种文本和图像相似度计算及语义匹配算法,支持高效处理亿级数据。主要功能包含文本相似度计算、文本搜索、图文匹配、图像搜索等多种算法。项目采用Python3开发,支持命令行操作,基于PyTorch和FastAPI等技术,可实现多语言环境下的高效向量表示及检索,开箱即用。
text2vec - 多模型文本向量化工具,支持多语言文本匹配分析
Github开源项目模型训练BERTText2vec文本向量化文本相似度
text2vec工具实现了多种文本向量表示和相似度计算模型,如Word2Vec、BERT、Sentence-BERT和CoSENT。最新版本增加了多卡推理和命令行工具,方便用户批量处理文本向量化。它在中英文测试集上的表现优秀,尤其新版中文匹配模型在短文本区分上有显著提升。该工具为中文和多语言文本匹配提供了丰富的支持,能够满足各种文本语义分析任务的需求。
rubert-tiny2 - 优化的俄语自然语言处理模型
Github开源项目自然语言处理BERT模型Huggingface文本相似度句子嵌入俄语模型
作为rubert-tiny的改进版本,rubert-tiny2是一个精简的俄语BERT编码器。它拥有更大的词汇表和更长的序列支持,能更好地逼近LaBSE嵌入效果。该模型可直接用于生成句子嵌入或进行下游任务微调,适用于短文本KNN分类等应用场景。通过与transformers和sentence_transformers库的无缝集成,rubert-tiny2为俄语自然语言处理任务提供了简便而强大的工具。
nomic-embed-text-v1.5 - 先进的文本嵌入模型用于语义分析和相似度计算
Github开源项目自然语言处理模型HuggingfaceMTEBsentence-transformers文本相似度特征提取
nomic-embed-text-v1.5是一款文本嵌入模型,专注于文本向量化和语义相似度计算。该模型在文本分类、检索、聚类和语义相似度评估等多项自然语言处理任务中表现优异。虽主要针对英语文本,但也支持多语言处理。在MTEB基准测试中的出色表现凸显了其在实际应用中的广泛潜力。
GIST-all-MiniLM-L6-v2 - 多语言句子相似度和特征提取模型
Github开源项目深度学习自然语言处理模型模型评估Huggingfacesentence-transformers文本相似度
GIST-all-MiniLM-L6-v2是一个用于句子相似度计算和特征提取的模型。该模型在MTEB基准测试中表现优异,涵盖分类、检索、聚类和语义文本相似度等任务。支持多语言处理,适用于文本分类、信息检索和语义搜索等自然语言处理应用。其轻量高效的特性适合需要高性能句子嵌入的项目。
nomic-embed-text-v1 - 多语言文本嵌入模型 适用于多种NLP任务
Github开源项目自然语言处理机器学习模型Huggingfacesentence-transformers文本相似度特征提取
nomic-embed-text-v1是一个文本嵌入模型,支持多语言处理和多种NLP任务。该模型在句子相似度、文本分类、聚类等任务中表现良好,可为下游应用提供文本表示。通过深度学习技术,该模型能够捕捉文本语义信息,为自然语言处理任务提供支持。
m3e-base - 中英双语文本嵌入模型,支持多种自然语言处理任务
Github开源项目微调模型Huggingface文本嵌入sentence-transformers文本相似度M3E
M3E是一个开源的文本嵌入模型,在2200万+中文句对数据集上训练。该模型支持中英双语的文本相似度计算和检索,适用于文本分类、检索等多种自然语言处理任务。M3E在MTEB-zh基准测试中表现优异,多项指标超越了OpenAI的同类模型。它易于使用和微调,完全兼容sentence-transformers生态系统。
e5-small-v2 - 轻量级多语言嵌入模型用于语义搜索和自然语言处理
Github开源项目自然语言处理模型模型评估HuggingfaceMTEBsentence-transformers文本相似度
e5-small-v2是一款轻量级多语言嵌入模型,适用于语义搜索和自然语言处理任务。该模型在MTEB基准测试中表现优异,涵盖文本分类、检索、聚类和语义相似度等多个领域。尽管体积小巧,e5-small-v2仍能有效处理多种语言,为开发者提供了一个高效且多用途的嵌入解决方案。
Solon-embeddings-large-0.1 - 法语嵌入模型Solon在多项自然语言处理任务中表现优异
Github开源项目自然语言处理模型Huggingface信息检索MTEB文本相似度法语嵌入模型
Solon-embeddings-large-0.1是一个法语嵌入模型,在句子相似度、聚类、重排序、检索和分类等多项自然语言处理任务中表现出色。该模型可应用于文本分类、信息检索和语义相似度计算等领域,为法语自然语言处理提供了有力支持。
sentence-bert-base-italian-uncased - 意大利语句向量模型 支持文本特征提取和语义相似度计算
Github开源项目自然语言处理模型训练模型Huggingfacesentence-transformers文本相似度句向量模型
该模型是基于BERT架构的意大利语sentence-transformers模型,可将文本映射为768维向量。它支持文本特征提取、语义相似度计算和文本聚类等任务,适用于意大利语自然语言处理场景。模型使用CosineSimilarityLoss训练,并提供了详细的使用示例,可通过sentence-transformers或HuggingFace Transformers库轻松集成。
jina-embeddings-v2-base-es - 双语智能文本嵌入模型 英语和西班牙语文本向量化解决方案
Github开源项目自然语言处理机器学习模型Huggingfacesentence-transformers文本相似度特征提取
这是一款针对英语和西班牙语优化的文本嵌入模型。在MTEB基准测试中表现优异,可高效处理文本分类、检索和聚类等任务。模型支持跨语言文本相似度计算,适用于双语内容处理场景。基于sentence-transformers框架开发,具备出色的文本特征提取能力。
sentence-camembert-large - 基于CamemBERT的法语句子语义嵌入模型
Github开源项目自然语言处理机器学习模型Huggingface文本相似度语义嵌入CamemBERT
一个专门面向法语文本的语义嵌入模型,基于'facebook/camembert-large'和'Siamese BERT-Networks'技术开发。模型通过数学向量表示法语句子语义,在STS基准测试中达到85.9%的皮尔逊相关系数。适用于语义搜索和文本相似度计算等应用场景,是当前性能领先的法语句子嵌入模型。
instructor-xl - 基于T5架构的开源文本嵌入模型
Github开源项目自然语言处理模型transformers模型评估Huggingface文本分类文本相似度
instructor-xl是一个基于transformer架构和T5模型的文本嵌入工具,主要应用于句子相似性计算、信息检索和文本分类任务。该模型已完成多项基准测试评估,包括自然问题回答、文本分类和语义相似度分析等。模型当前主要支持英语文本处理,可用于构建各类自然语言处理应用。
Solon-embeddings-base-0.1 - 开源法语句子相似度模型增强段落检索
Github开源项目开源模型Huggingface文本相似度法语嵌入模型Solon-embeddings-base-0.1OrdalieTech
该开源项目专注于生成法语句子相似度嵌入模型,并在mMARCO-fr数据集上取得优异的Recall@500和Recall@100结果。模型在各种法语基准测试中表现出色,适合用于分类、排序及STS任务。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号