Project Icon

rank_bm25

Python实现的BM25文本检索算法库

Rank-BM25是一个开源的Python文本检索库,实现了多种BM25算法变体,如Okapi BM25、BM25L和BM25+。该项目提供简洁的API,支持文档索引、评分和排序。用户可自行处理文本预处理,灵活应用于各类检索任务。Rank-BM25适合构建小型搜索引擎或用于信息检索研究,具有易用性和可扩展性。

searcharray - 将Pandas字符串列转换为搜索索引的Python工具
BM25GithubPandasSearchArray全文搜索开源项目词项索引
SearchArray是一个Python库,用于将Pandas字符串列转换为词项索引。它支持BM25和TFIDF评分,实现高效的词和短语搜索。该工具提供自定义分词器、内存映射和相似度计算功能,简化了Python数据处理中的词法搜索。SearchArray适用于搜索相关性实验和结果重排序,可与其他数据处理任务无缝集成。
RAG-Retrieval - 使用RAG-Retrieval全面提升信息检索效率与精度
GithubRAG-Retrieval开源项目微调排序模型推理检索模型
RAG-Retrieval项目通过统一方式调用不同RAG排序模型,支持全链路微调与推理。其轻量级Python库扩展性强,适应多种应用场景,提升排序效率。更新内容包括基于LLM监督的微调及其Embedding模型的MRL loss性能提升。
bge-base-zh-v1.5 - 文本低维向量映射提升中文检索与分类效率
FlagEmbeddingGithubHuggingface句子相似性向量检索对比学习嵌入模型开源项目模型
FlagEmbedding是一个开源项目,可将文本转换为低维密集向量,用于多种任务,如检索、分类和语义搜索。bge-base-zh-v1.5版本优化了相似度分布,没有指令也能提升检索能力。支持中文和英文的处理,并与大型语言模型(LLM)无缝集成,bge-reranker交叉编码器模型为文档重新排名提供高精度结果。此外,最新的LLM-Embedder满足多样化检索增强需求,使用户在大数据环境中更高效地完成检索和分类。
bge-reranker-v2-m3 - 多语言重排模型优化检索性能
FlagEmbeddingGithubHuggingface多语言开源项目文本分类模型语义相关性重排序模型
bge-reranker-v2-m3是基于bge-m3开发的轻量级多语言重排模型。该模型部署简单,推理迅速,支持多语言处理。它能直接输出查询与文档的相关性分数,适用于多种检索场景。在BEIR、CMTEB等评测中表现出色,可有效提升检索系统效果。模型提供多个版本,可根据需求选择。
SearchEngine - 现代搜索引擎技术的核心原理与实践指南
Github召回开源项目排序搜索引擎查询词处理相关性
该项目系统地介绍搜索引擎核心技术,包括基础概念、相关性评估、查询处理、召回策略和排序算法。内容涵盖BERT模型在相关性判断中的应用,以及查询词处理和推荐系统的优化方法。项目详细讲解了倒排索引、向量召回、BERT模型应用等关键技术,并探讨了查询词分词、意图识别、排序模型训练等实际问题。通过幻灯片和视频资源,为开发者和研究人员提供搜索引擎技术的深入学习材料,这些内容对于理解和实现现代搜索引擎至关重要。
PHP-Science-TextRank - PHP实现的TextRank算法文本摘要库
GithubPHP实现TextRank关键词提取开源项目文本处理自动摘要
PHP-Science-TextRank是一个实现TextRank算法的PHP库,用于自动文本摘要和关键词提取。它能高效处理新闻文章、学术论文等长文本,提取核心内容和关键词。支持多语言停用词处理,可作为GPT等大型语言模型的预处理器,显著降低后续处理的资源消耗。该项目采用MIT许可证,提供简洁API,易于集成到内容管理系统、搜索引擎等PHP项目中。
gensim - Gensim:高效的Python主题建模和文档索引工具
GensimGithubNLPPython主题建模开源项目文档相似性
Gensim是一个针对自然语言处理和信息检索的Python库,用于执行主题建模、文档索引和相似性检索。该库依靠高效的内存独立算法和多核实现,可以处理超过内存容量的大型语料库。Gensim支持LSA、LDA、RP和HDP等各种流行算法,并支持分布式计算。其直观接口和详实文档使得用户可以轻松集成与扩展,是大规模文本数据处理的优秀选择。
efficient-splade-VI-BT-large-doc - SPLADE模型实现高效文档检索与精准排序
GithubHuggingfaceSPLADE信息检索开源项目效率优化文档编码器检索模型模型
SPLADE模型是一种针对文档检索的高效架构,采用查询和文档推理分离设计。该模型在MS MARCO开发集上达到38.0 MRR@10和97.8 R@1000的性能,同时将推理延迟降至0.7毫秒。它在保持与先进神经排序器相近效果的同时,大幅缩短了延迟,接近传统BM25的速度,为文档检索领域提供了平衡效率与准确性的新方案。
denser-retriever - 多技术融合的企业级AI检索工具
AI检索器Denser RetrieverGithubxgboost向量搜索开源项目机器学习重排序
Denser Retriever是一款企业级AI检索工具,融合关键词搜索、向量数据库与机器学习重排功能,并通过xgboost技术优化。其在MTEB基准测试中表现出色,支持端到端应用,包括聊天机器人和语义搜索。项目支持Python安装,推荐使用Anaconda配置,附有详细文档和开发指南。
bce-reranker-base_v1 - 改进多语言文本排序的跨语种嵌入模型
BCEmbeddingGithubHuggingfaceRAG优化开源项目模型语义表征跨语种重排序模型
BCEmbedding 提供双语和跨语种文本排序功能,适合多领域应用,如教育、法律、金融等领域。其 RerankerModel 通过相关性分数评价,提高搜索结果的质量,支持中文、英文、日文和韩文,深入捕获查询与文本之间的语义关系,是 Youdao 产品中的核心技术。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号