#DistilBert
msmarco-distilbert-base-tas-b - 高效语义搜索句子嵌入模型
Huggingface模型嵌入模型Github开源项目sentence-transformers自然语言处理DistilBert语义搜索
msmarco-distilbert-base-tas-b是一个基于sentence-transformers的语义搜索模型。它将句子和段落映射到768维向量空间,专为查询-文档匹配优化。模型易于使用,可通过sentence-transformers库集成,在信息检索和语义相似性任务中表现出色。这个开源项目为开发者提供了一个高效的语义搜索解决方案。
quora-distilbert-multilingual - 跨语言句子嵌入与语义搜索解决方案
句子相似性Githubsentence-transformers开源项目特征提取Huggingface语义搜索DistilBert模型
quora-distilbert-multilingual是一款依托sentence-transformers框架的模型,可将句子和段落转换为768维的向量,从而助力于句子聚类和语义搜索。用户可以选择使用sentence-transformers库简便地安装和使用,也可利用HuggingFace Transformers手动实现句子嵌入。该模型在Sentence Embeddings Benchmark测试中表现优异,模型结构包含DistilBert变换器和平均池化操作,为句子提供高效的表示能力。
msmarco-distilbert-base-v3 - 基于DistilBERT的文本向量化模型支持语义搜索与文本聚类
向量映射GithubDistilBert语义搜索自然语言处理Huggingface开源项目模型sentence-transformers
msmarco-distilbert-base-v3是一个文本向量化模型,可将文本转换为计算机可理解的向量形式。基于sentence-transformers框架开发,主要应用于文本相似度计算、语义搜索和文本聚类等场景。该模型采用轻量级的DistilBERT架构,在保持性能的同时提高了处理效率。
distilbert-dot-tas_b-b256-msmarco - 基于平衡主题感知采样的高效密集检索方案
知识蒸馏文本检索DistilBert开源项目模型HuggingfaceMSMARCOGithubBERT_Dot
本项目提供了一个基于DistilBERT的密集文本检索模型,采用双编码器结构和点积评分机制。该模型使用平衡主题感知采样(TAS-B)方法在MS MARCO数据集上训练,可用于候选集重排序或直接进行向量索引密集检索。模型在多个测试集上展现出优于BM25基线的检索性能。其特点包括高效训练(单GPU 48小时内完成)和保留原始DistilBERT的6层架构。这一方案为高效密集检索提供了新的解决思路。