#数据集生成

DatasetGPT:revolutionizing dataset generation with large language models

3 个月前
Cover of DatasetGPT:revolutionizing dataset generation with large language models

GPT-LLM-Trainer:简化AI模型训练的革命性工具

3 个月前
Cover of GPT-LLM-Trainer:简化AI模型训练的革命性工具

Speech Dataset Generator: 强大的语音数据集生成工具

3 个月前
Cover of Speech Dataset Generator: 强大的语音数据集生成工具
相关项目
Project Cover

speech-dataset-generator

speech-dataset-generator是一款开源的多语言语音数据集处理工具。它支持从多种来源获取音频,包括YouTube、LibriVox和TED Talks等。该工具提供音频转录、质量增强、静音移除、性别识别、多说话者检测等功能,还能计算语速指标。通过集成多种音频增强器,speech-dataset-generator为文本转语音和语音转文本模型的训练提供了全面的数据准备解决方案。

Project Cover

gpt-llm-trainer

gpt-llm-trainer是一个AI模型训练自动化工具,简化了从任务描述到高性能模型的开发流程。该工具利用Claude 3或GPT-4生成数据集,为LLaMA 2或GPT-3.5模型创建系统提示并进行微调。gpt-llm-trainer通过自动化处理复杂的技术细节,使AI模型开发变得更加简单高效,适合快速开发特定任务AI模型的需求。

Project Cover

datasetGPT

datasetGPT是一个命令行工具和Python库,用于通过大型语言模型生成文本数据集。支持OpenAI、Cohere和Petals等多个LLM后端,可生成文本和对话数据。适用于构建AI检测器训练语料库、收集LLM生成的对话数据集进行研究,以及批量处理文本等场景。通过灵活的参数配置,datasetGPT能够生成多样化的数据集。

Project Cover

roberta-large-wanli

roberta-large-wanli是一个在WANLI数据集上微调的自然语言推理模型。该模型在8个域外测试集上表现优异,特别是在HANS和Adversarial NLI测试集上分别比roberta-large-mnli模型提高了11%和9%的性能。WANLI数据集通过结合GPT-3的生成能力和人工评估,创建了高质量的NLI样本,从而提升了模型的推理能力和泛化性。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号