相关项目
finetune-embedding
finetune-embedding项目展示了利用合成数据微调嵌入模型来提升RAG性能的方法。该项目详细介绍了使用大语言模型生成合成数据集、微调开源嵌入模型和评估模型效果的步骤。在小规模金融PDF文档数据集上的实验证明,微调后的嵌入模型能显著提高检索性能。这种方法通过大语言模型生成假设性问题,无需人工标注即可创建高质量训练数据,为RAG系统优化提供了新思路。
jina-colbert-v1-en
Jina-ColBERT是一个基于JinaBERT的ColBERT模型,它能处理8k的上下文长度,实现快速准确的检索。与ColBERTv2相比,使用了jina-bert-v2-base-en为主干,并在MSMARCO数据集上训练,表现优于部分基准模型,尤其在长上下文环境中表现更佳,适用于长文档检索场景。
Conan-embedding-v1
Conan-embedding-v1是一个开源项目,采用sentence-transformers库,支持多种中文自然语言处理任务如STS、分类、重排序、检索和聚类。通过在AFQMC、ATEC和AmazonReviewsClassification等数据集上的测试,该项目展示了其在复杂中文语境中的有效性。其分析与性能指标对比提供了开发者和研究人员一种提升自然语言处理效率和准确性的方法。