#信息检索

Superlinked学习资料汇总 - 企业级AI应用的计算框架

2 个月前

Superlinked 信息检索机器学习特征工程向量嵌入 Github 开源项目

2 个月前

A-Guide-to-Retrieval-Augmented-LLM学习资料汇总-一份全面的检索增强LLM指南

2 个月前

检索增强LLM 大语言模型信息检索长尾知识私有数据 Github 开源项目

2 个月前

awesome-azure-openai-llm学习资料汇总 - Azure OpenAI和大语言模型相关资源

2 个月前

Azure OpenAI 大语言模型语言模型训练信息检索 API集成 Github 开源项目

2 个月前

AgentSearch学习资料汇总 - 强大的搜索代理框架和自定义本地搜索引擎

2 个月前

AgentSearch 搜索引擎 LLM技术信息检索定制搜索 Github 开源项目

2 个月前

Awesome-LLM-Long-Context-Modeling学习资料汇总 - 长文本建模相关资源分享

2 个月前

大语言模型长文本处理信息检索 Transformer优化自然语言处理 Github 开源项目

2 个月前

向量数据库技术全面解析：原理、应用与发展趋势

3 个月前

向量数据库高维搜索近似最近邻产品量化信息检索 Github 开源项目

3 个月前

ranx: 高效的Python排序评估与融合库

3 个月前

ranx 信息检索推荐系统评估指标融合算法 Github 开源项目

3 个月前

retriv: 一款面向人类的Python搜索引擎

3 个月前

retriv 搜索引擎信息检索稀疏检索密集检索 Github 开源项目

3 个月前

探索FlexNeuART:一个灵活的经典与神经信息检索工具包

3 个月前

FlexNeuART 信息检索神经网络模型排序模型实验框架 Github 开源项目

3 个月前

Terrier-core: 强大灵活的开源信息检索平台

3 个月前

Terrier 搜索引擎信息检索开源软件文本检索 Github 开源项目

3 个月前

相关项目

agent-search

AgentSearch是一个创新框架，通过结合多家提供商的LLM技术与搜索引擎，增强搜索代理性能。支持搜索结果总结、查询生成与深度检索，还能部署个性化本地搜索解决方案，提供多样的API接入选项。

A-Guide-to-Retrieval-Augmented-LLM

本文深入探讨检索增强大语言模型（Retrieval Augmented LLM）的核心要素、工作原理及实践应用。通过结合外部信息源，该技术显著提高了模型在处理时效性强的数据、保护私有信息及应对长尾知识挑战方面的能力。文章还评估了在实际场景中该技术的效果，提供了一个关于如何有效利用检索增强大语言模型的全面视角。

awesome-azure-openai-llm

提供Azure OpenAI和大型语言模型（LLM）的综合参考，包括服务与技术的详细比较和专有功能介绍。深入探讨私有网络支持、角色认证和AI内容过滤的优势，非常适合希望全面了解并运用Azure OpenAI整合服务的技术用户。

superlinked

Superlinked 是一个计算框架，专注将复杂数据（如结构化和非结构化数据）转化为超模态向量嵌入，适用于RAG、搜索、推荐和分析系统。它结合了预训练模型的便利性和自定义模型的性能。该框架提供多种嵌入类型、定制编码器、组合编码器和动态参数等功能，并支持多种向量数据库，适用于实验和生产环境。

primeqa

PrimeQA是一个开源平台，帮助研究人员和开发人员训练先进的问答模型。用户可以在PrimeQA上复制NLP会议中的实验，下载预训练模型并应用于自定义数据。该平台支持信息检索、多语言阅读理解、问题生成及检索增强的生成技术。PrimeQA在多个排行榜中名列前茅，整合Transformers工具包以提供强大的问答功能，满足领先的研究和开发需求。

splade

SPLADE项目使用BERT的MLM头和稀疏正则化来学习查询和文档的稀疏扩展，优化了检索性能。项目包含训练、索引和检索的代码，并支持在BEIR基准测试中评估。最新版本通过硬负样本采样、蒸馏和改进的预训练语言模型初始化，显著提升了检索效果。此外，SPLADE的稀疏表示优化了倒排索引的使用，提供了显式词汇匹配和可解释性等优点。经过优化的训练和正则化，SPLADE在域内外测试中表现优异，延迟性能与BM25相当。

GraphRAG4OpenWebUI

GraphRAG4OpenWebUI 为 Open WebUI 提供了一个强大而高效的信息检索系统，集成了微软研究院的 GraphRAG 技术，支持本地搜索、全球搜索和 Tavily 搜索。该项目专为需要精确和全面搜索结果的开放网络用户界面设计，并且支持本地语言模型和嵌入模型，增强了灵活性和隐私性。通过多个 API 接口，用户可以轻松实现复杂的信息检索需求。

ChatGPT-RetrievalQA

提供ChatGPT与人类响应的数据集，以训练和评估问答检索模型。数据集基于HC3公开数据，分析ChatGPT和传统检索模型在回答真实性和可靠性上的差异。项目由阿姆斯特丹大学支持，数据格式兼容MSMarco，便于研究人员使用现有脚本。

Awesome-LLM-Long-Context-Modeling

本仓库收集了关于高效变换器、长度外推、长期记忆、增强检索生成（RAG）及长文本建模评估的研究论文和博客，提供专业资源用于探索长上下文模型及其挑战，并讨论优化NLP模型的创新方法，适合深度语言模型和复杂文本建模研究人员及开发者。考虑到用户搜索意图的多样性，建议在SEO描述中提及项目对长文本建模从算法到实际应用的全面影响，以及其对未来研究方向的启示。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com