#数据集生成

speech-dataset-generator - 多语言语音数据集生成与处理工具
Github开源项目多语言支持语音识别音频处理Speech Dataset Generator数据集生成
speech-dataset-generator是一款开源的多语言语音数据集处理工具。它支持从多种来源获取音频,包括YouTube、LibriVox和TED Talks等。该工具提供音频转录、质量增强、静音移除、性别识别、多说话者检测等功能,还能计算语速指标。通过集成多种音频增强器,speech-dataset-generator为文本转语音和语音转文本模型的训练提供了全面的数据准备解决方案。
gpt-llm-trainer - AI模型训练自动化工具 从任务描述到高性能模型
Github开源项目模型微调GPT-3.5AI训练数据集生成LLaMA 2
gpt-llm-trainer是一个AI模型训练自动化工具,简化了从任务描述到高性能模型的开发流程。该工具利用Claude 3或GPT-4生成数据集,为LLaMA 2或GPT-3.5模型创建系统提示并进行微调。gpt-llm-trainer通过自动化处理复杂的技术细节,使AI模型开发变得更加简单高效,适合快速开发特定任务AI模型的需求。
datasetGPT - 基于大型语言模型的文本数据集生成工具
Github开源项目大语言模型命令行工具API接口数据集生成datasetGPT
datasetGPT是一个命令行工具和Python库,用于通过大型语言模型生成文本数据集。支持OpenAI、Cohere和Petals等多个LLM后端,可生成文本和对话数据。适用于构建AI检测器训练语料库、收集LLM生成的对话数据集进行研究,以及批量处理文本等场景。通过灵活的参数配置,datasetGPT能够生成多样化的数据集。
roberta-large-wanli - WANLI数据集训练的高性能自然语言推理模型
Github开源项目模型训练模型Huggingface数据集生成自然语言推理WANLIRobertaForSequenceClassification
roberta-large-wanli是一个在WANLI数据集上微调的自然语言推理模型。该模型在8个域外测试集上表现优异,特别是在HANS和Adversarial NLI测试集上分别比roberta-large-mnli模型提高了11%和9%的性能。WANLI数据集通过结合GPT-3的生成能力和人工评估,创建了高质量的NLI样本,从而提升了模型的推理能力和泛化性。