rank_bm25

Python实现的BM25文本检索算法库

BM25 搜索引擎文档排序相关性算法文本处理 Github 开源项目

Rank-BM25是一个开源的Python文本检索库，实现了多种BM25算法变体，如Okapi BM25、BM25L和BM25+。该项目提供简洁的API，支持文档索引、评分和排序。用户可自行处理文本预处理，灵活应用于各类检索任务。Rank-BM25适合构建小型搜索引擎或用于信息检索研究，具有易用性和可扩展性。

访问官网

Github

介绍相关项目

stark - 大规模半结构化检索基准，推动LLM性能提升

GithubSTaRK大规模开源项目查询数据集检索系统知识基

STaRK提供一个大规模的半结构化检索基准，涵盖产品搜索、学术论文检索和生物医学查询，旨在评估和提升LLM在文本与关系型知识库中的检索效果。该基准含有多样化和现实的查询，要求上下文相关推理，为未来研究提供有力支持。STaRK已在Hugging Face平台发布，并可以通过pip包直接加载，支持用户互动查询的探索性界面。更多详情请访问官方网站。

python - BigML Python库,简化机器学习模型创建与管理

APIBigMLGithubPython绑定开源项目机器学习预测模型

BigML Python库为BigML.io API提供了简洁的接口，支持创建、检索、列出、更新和删除BigML资源。兼容Python 3，具备本地预测功能，该库简化了机器学习流程，便于快速构建和部署预测模型。适用于多种数据驱动的决策场景，使机器学习模型的开发和管理变得更加高效。

fast_vector_similarity - 向量相似度计算库，适用于数据分析、机器学习和统计任务

Fast Vector Similarity LibraryGithubPython绑定开源项目文本嵌入相似性度量高维数据

此库高效计算向量间多种相似度，广泛用于数据分析、机器学习和统计。支持Spearman等级相关系数、Kendall相关系数等多种相似度，提供Python绑定，易于集成。基于Rust开发，采用并行计算和矢量优化，并支持数据采样以提升计算稳健性，兼容现代语言模型生成的高维文本嵌入。

tantivy-py - Tantivy全文搜索引擎的Python接口

GithubPython绑定RustTantivy全文搜索引擎开源项目

tantivy-py是Tantivy全文搜索引擎的Python接口，为Python开发者提供了使用Rust编写的高性能搜索功能。该项目可通过pip安装，并提供详细文档。tantivy-py适合需要在Python项目中集成强大搜索能力的开发者使用。

ko-reranker - 基于Amazon SageMaker的韩语文本重排序模型优化指南

Amazon SageMakerGithubHuggingfaceReranker开源项目文本分类机器学习模型自然语言处理

ko-reranker是一个基于BAAI/bge-reranker-large的韩语文本重排序模型，通过直接输出相似度分数优化搜索和问答系统性能。该模型在Amazon SageMaker上使用翻译后的MS MARCO数据集进行微调，在评估指标上优于未经重排序的基线。项目提供了使用Transformers和SageMaker部署模型的指南，适用于需要提高韩语文本检索准确性的应用场景。

splade-v3 - SPLADE-v3稀疏神经信息检索模型的最新进展

GithubHuggingfaceSPLADE信息检索开源项目文本检索机器学习模型自然语言处理

SPLADE-v3是SPLADE系列的最新稀疏神经信息检索模型，基于SPLADE++SelfDistil优化而来。该模型采用KL散度和MarginMSE混合损失函数，每次查询选取8个负样本进行训练。在性能方面，SPLADE-v3在MS MARCO开发集上达到40.2的MRR@10分数，BEIR-13测试中获得51.7的平均nDCG@10。这一成果为稀疏神经信息检索领域树立了新标准。研究人员可以通过GitHub平台获取并应用SPLADE-v3模型，以提升信息检索效果。

fastRAG - 检索增强生成模型的构建与应用探索

ColBERTGithubHaystackLLMONNX RuntimefastRAG开源项目

fastRAG是一个专为构建和优化检索增强生成模型的研究框架，集成了最先进的LLM和信息检索技术。它为研究人员和开发人员提供了一整套工具，支持在Intel硬件上进行优化，并兼容Haystack自定义组件。其主要特点包括对多模态和聊天演示的支持、优化的嵌入模型和索引修改功能，以及与Haystack v2+的兼容性。

llm-embedder - FlagEmbedding 高性能文本向量化模型助力信息检索与语义搜索

FlagEmbeddingGithubHuggingface开源项目微调文本嵌入检索增强模型重排模型

FlagEmbedding项目开发了一系列高性能文本向量化模型,可将文本转化为低维密集向量。这些模型在信息检索、文本分类、聚类和语义搜索等任务中表现出色,也可用于构建大语言模型的向量数据库。项目包含BGE和LLM-Embedder等多个中英双语模型,在MTEB和C-MTEB基准测试中均取得第一。FlagEmbedding还提供模型微调代码和性能评估工具,便于进行定制化训练和测试。

usearch - 快速轻量的开源向量搜索引擎

GithubHNSW算法USearch向量搜索引擎多语言支持开源项目相似度搜索

USearch是一个开源的单文件相似性搜索引擎,专注于向量和文本搜索。该引擎比FAISS性能提升10倍,支持多种编程语言和平台。USearch提供SIMD优化和自定义度量功能,具有高内存效率,可从磁盘直接查看大型索引。它兼容多种数据库,适用于语义搜索、聚类等场景,为向量搜索提供了灵活高效的解决方案。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号