#检索性能
finetune-embedding - 利用合成数据微调嵌入模型提升RAG检索效果
嵌入模型微调RAG合成数据检索性能LlamaIndexGithub开源项目
finetune-embedding项目展示了利用合成数据微调嵌入模型来提升RAG性能的方法。该项目详细介绍了使用大语言模型生成合成数据集、微调开源嵌入模型和评估模型效果的步骤。在小规模金融PDF文档数据集上的实验证明,微调后的嵌入模型能显著提高检索性能。这种方法通过大语言模型生成假设性问题,无需人工标注即可创建高质量训练数据,为RAG系统优化提供了新思路。
jina-colbert-v1-en - JinaBERT基础的长文档检索用ColBERT模型
Jina-ColBERT模型Github开源项目检索性能长上下文Huggingface对比结果MSMARCO
Jina-ColBERT是一个基于JinaBERT的ColBERT模型,它能处理8k的上下文长度,实现快速准确的检索。与ColBERTv2相比,使用了jina-bert-v2-base-en为主干,并在MSMARCO数据集上训练,表现优于部分基准模型,尤其在长上下文环境中表现更佳,适用于长文档检索场景。
Conan-embedding-v1 - 中文文本处理的开源深度学习工具
检索性能语义相似度Huggingface句子转换器conan-embeddingGithub文本分类开源项目模型
Conan-embedding-v1是一个开源项目,采用sentence-transformers库,支持多种中文自然语言处理任务如STS、分类、重排序、检索和聚类。通过在AFQMC、ATEC和AmazonReviewsClassification等数据集上的测试,该项目展示了其在复杂中文语境中的有效性。其分析与性能指标对比提供了开发者和研究人员一种提升自然语言处理效率和准确性的方法。