Project Icon

anserini

开源可复现信息检索研究工具包

Anserini是基于Lucene开发的开源信息检索工具包,致力于推动可复现的学术研究。该工具包提供从索引构建到结果评估的端到端实验支持,实现了BM25、doc2query-T5、SPLADE等多种先进检索模型。Anserini可应用于各类标准IR测试集,有助于缩小信息检索研究与实际搜索应用之间的差距。

ir_datasets - 统一信息检索数据集接口的Python工具
GithubPython包ir_datasets信息检索开源项目数据集文档检索
ir_datasets是一个Python工具包,为信息检索领域的多种数据集提供统一接口。它可自动下载和处理公开数据集,并为非公开数据集提供获取指南。该工具支持Python和命令行使用,能处理大规模数据集,并修正已知问题。通过快速随机文档访问和灵活迭代切片等功能,ir_datasets简化了信息检索研究中的数据处理流程。
bench - LLM性能评估与工作流标准化工具
BenchGitHubGithubLLMpython开源项目评估
Bench是一款适用于生产环境的LLM评估工具,支持比较不同的LLM、提示词和生成超参数(如温度和令牌数量)。它提供统一接口,实现LLM评估流程标准化,可测试开源LLM在特定数据上的表现,并将排行的排名转化为实际用例评分。用户可以安装Bench、创建并运行测试套件,通过本地UI查看结果。
minisearch - 轻量级全文搜索引擎 实现快速离线搜索体验
GithubJavaScriptMiniSearch全文搜索内存索引开源项目搜索引擎
MiniSearch是一款JavaScript编写的轻量级内存全文搜索引擎。它支持精确匹配、前缀搜索、模糊匹配和字段提升等功能,适用于数据量适中的全文搜索场景。MiniSearch可在浏览器和Node.js环境运行,支持实时索引更新和自动建议功能。无外部依赖且资源占用少,非常适合需快速响应的客户端搜索应用。
ms-marco-MiniLM-L-12-v2 - 跨编码器模型实现高效信息检索与段落排序
Cross-EncoderGithubHuggingfaceMS MarcoSentenceTransformers信息检索开源项目模型自然语言处理
ms-marco-MiniLM-L-12-v2是为MS Marco段落排序任务开发的跨编码器模型。该模型在信息检索领域表现优异,能够高效编码和排序查询与段落。在TREC Deep Learning 2019和MS Marco Passage Reranking数据集上,模型分别达到74.31的NDCG@10和39.02的MRR@10。每秒处理960个文档的速度使其在准确性和效率间实现了良好平衡,适用于各类信息检索应用场景。
Splade_PP_en_v1 - SPLADE++稀疏文档检索模型的工业级优化实现
GithubHuggingfaceSPLADE++关键词扩展开源项目文档检索检索效率模型稀疏表示
基于SPLADE++的文档检索模型优化实现,通过FLOPS和令牌预算的调整实现高效检索。模型以bert-base-uncased为基础,在47.27ms的检索延迟下达到37.22的MRR@10性能,适合工业级搜索应用部署。
MarginaliaSearch - 实验性开源搜索引擎 探索互联网人性化和非商业化方向
GithubMarginalia Search互联网发现实验性开源项目搜索引擎
MarginaliaSearch是一个创新开源搜索引擎项目,致力于开发新的互联网内容发现方法。作为实验性工坊和公共服务,该项目旨在突出互联网的人性化和非商业化特征。MarginaliaSearch采用低成本硬件和精简运营模式,提供独特搜索体验。支持自托管部署,可用于个人数据检索。项目未来计划通过赠款、捐赠和商业API授权维持发展。
R2R - 在生产环境中构建、扩展和管理面向用户的检索增强生成应用程序
GithubR2RRetrieval-Augmented Generation多模态支持开源项目混合搜索知识图谱
R2R旨在弥合本地LLM实验与可扩展的生产级检索增强生成(RAG)应用之间的差距。R2R提供最新的RAG技术,基于RESTful API构建,使用简便。其主要功能包括多模态支持、混合搜索、图形RAG、应用管理、可观察性、可配置性和扩展性。通过R2R仪表板用户界面,可直观管理和分析RAG引擎性能。
paper-qa - 基于文档的智能问答系统 实现精准信息检索和回答生成
GithubLLMPaperQA嵌入式向量开源项目异步处理文献问答
paper-qa是一款轻量级文档问答工具包,专门从PDF和文本文件中提取信息并生成回答。通过文档嵌入、向量搜索和摘要生成等技术,结合大型语言模型,paper-qa能够提供高质量且有据可依的回答。支持OpenAI、Anthropic等多种嵌入和语言模型,并可集成本地托管模型。工具提供异步API,支持自定义文档添加和引用格式推断,还可整合外部向量存储。这些特性使paper-qa成为科研和信息检索领域的实用解决方案。
splade-cocondenser-ensembledistil - SPLADE模型优化段落检索的稀疏神经信息检索
GithubHuggingfaceSPLADE信息检索开源项目文本检索模型深度学习稀疏神经网络
SPLADE CoCondenser EnsembleDistil是一种先进的段落检索模型,在MS MARCO开发集上展现出卓越性能,MRR@10达38.3,R@1000达98.3。该模型整合了查询扩展、文档扩展和词袋等技术,并通过知识蒸馏和硬负样本采样提升了稀疏神经信息检索模型的效果。研究人员可将其应用于相关信息检索任务,更多技术细节可参考相关论文。
ai-powered-search - 现代搜索引擎的AI驱动技术实践
AI搜索引擎Apache SolrGithub开源项目机器学习自然语言处理语义搜索
AI-Powered Search项目展示了现代搜索引擎的AI驱动技术,包括语义搜索、检索增强生成和个性化搜索等。项目基于Python和PySpark开发,支持多种搜索引擎和向量数据库。通过Docker容器和Jupyter Notebooks,开发者可以实践《AI-Powered Search》一书中的代码示例,深入学习构建智能搜索引擎的先进技术。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号