#向量检索
VectorHub
VectorHub是一个免费开源的学习平台,旨在帮助用户将向量检索技术集成到机器学习堆栈中。用户可以在这里找到实用资源,用于创建最小可行产品(MVP),解决特定用例中的挑战,了解和选择合适的向量数据库供应商。VectorHub还提供了一个免费工具,用于比较不同向量数据库的特性,确保在生产环境中的应用效果。
cognee
cognee是一个先进的开源框架,旨在通过图形、LLMs和向量检索功能,为AI工程师提供精确的输出结果。该工具支持自我改进,兼容多种本地配置和存储方案,从而助力AI项目的高效实施和灵活扩展。
sample-apps
Sample-apps项目展示了Vespa的多种应用场景,包括基础推荐、语义搜索、检索增强生成(RAG)和多向量索引等。该项目通过电商搜索、新闻推荐和大规模图像检索等实例,展示了Vespa的实际应用能力。开发者可以参考album-recommendation、news和billion-scale-image-search等多个示例应用,快速掌握Vespa的基础和高级功能实现。
kumo-search
kumo search是一个端到端搜索引擎框架,运行在EA平台上。它支持全文检索、倒排索引、排序等功能,适用于数据量中等、业务复杂的垂直领域搜索。该框架允许使用Python编写业务逻辑,通过AOT编译器自动生成C++代码,实现快速迭代。kumo search提供多个基础库和服务项目,包括向量引擎和综合搜索引擎,为搭建全面搜索解决方案提供支持。
text2vec-base-chinese-rag
text2vec-base-chinese-rag采用CoSENT训练框架构建,专注于中文文本理解和RAG任务。模型支持文本相似度计算,集成Langchain和FAISS向量存储功能,实现高效文档检索。项目提供自定义LLM的RAG实现示例,便于开发者快速应用和扩展。
bge-base-zh-v1.5
FlagEmbedding是一个开源项目,可将文本转换为低维密集向量,用于多种任务,如检索、分类和语义搜索。bge-base-zh-v1.5版本优化了相似度分布,没有指令也能提升检索能力。支持中文和英文的处理,并与大型语言模型(LLM)无缝集成,bge-reranker交叉编码器模型为文档重新排名提供高精度结果。此外,最新的LLM-Embedder满足多样化检索增强需求,使用户在大数据环境中更高效地完成检索和分类。