#问答数据集

financial-datasets - 开源Python库利用LLM生成金融问答数据集
Financial DatasetsPython库金融数据集生成大型语言模型问答数据集Github开源项目
Financial Datasets是一个开源Python库,利用大型语言模型从金融文本生成问答数据集。支持从文本、PDF和10-K报告生成数据,提供灵活API。该库安装简便,可通过pip或Poetry集成。为金融分析和机器学习研究提供了便捷工具,能高效创建训练数据。
MultiHop-RAG - 评估跨文档RAG能力的多跳查询数据集
MultiHop-RAG检索增强生成跨文档评估问答数据集元数据Github开源项目
MultiHop-RAG是一个评估检索增强生成(RAG)系统跨文档能力的问答数据集。它包含2556个多跳查询,每个查询的证据分布在2至4个文档中,并考虑文档元数据,模拟真实RAG应用中的复杂场景。该项目提供检索和问答示例以及评估脚本,帮助研究人员和开发者改进RAG系统的多文档推理能力。
insuranceqa-corpus-zh - 开源中文保险问答语料库 支持机器学习和NLP研究
保险语料库问答数据集机器学习数据格式分词处理Github开源项目
insuranceqa-corpus-zh是一个开源的中文保险行业问答语料库,包含真实用户问题和专业回答。作为保险领域首个开放QA语料库,它提供问答语料和问答对语料两种格式,支持答案选择、阅读理解等多种机器学习任务。数据集划分为训练集、测试集和验证集,并附有详细使用说明和格式介绍,方便研究人员快速应用。该项目适合进行保险领域自然语言处理和问答系统相关研究。