CDial-GPT 项目介绍
CDial-GPT 是一个专注于中文自然语言对话处理的项目,主要提供了一个大规模的中文对话数据集以及基于该数据集的中文对话预训练模型(即中文GPT模型)。这个项目的代码是基于HuggingFace的PyTorch版本的Transformers库进行开发的,适用于模型的预训练和微调。
数据集概况
项目提供的数据集名为LCCC(Large-scale Cleaned Chinese Conversation),包括两个版本:LCCC-base和LCCC-large。数据集的设计注重质量,通过一套严格的数据过滤流程来清理数据,以保证对话内容的准确性和相关性。这一流程包括使用手动规则和机器学习算法过滤器来去除噪音,例如脏词、特殊字符、不通顺的语句等。
LCCC-base的数据源主要来自微博,经过严格的清洗,适合需要高质量数据的项目。LCCC-large不仅包含微博数据,还融合了其他开源对话数据集,更加多样化。
预训练模型概况
CDial-GPT提供了一系列中文GPT模型,这些模型先在中文小说数据上预训练,然后在LCCC数据集上进行进一步训练。模型的输入采用把所有对话历史拼接为一个句子的方式来预测对话回复。
提供的预训练模型主要包括:
- GPT 基于中文小说数据构建。
- CDial-GPT 基于LCCC-base进一步训练。
- CDial-GPT2 基于LCCC-base进一步训练。
- CDial-GPT 基于LCCC-large进一步训练。
模型安装与使用
用户可以从GitHub克隆项目代码,并安装必要的软件依赖。项目提供简单的快速上手指南,用户可以使用预训练模型进行进一步的训练和推断。
训练模型
通过命令行可以很容易地加载数据集和模型,配置好训练参数后即可开始训练。支持在多GPU环境中进行分布式训练以加快速度。
生成文本
项目也提供与模型进行交互的功能,用户可以通过命令行与训练好的模型进行实时对话,观察生成效果。
评测结果
项目的评测使用了STC数据集,通过自动化指标(如PPL、BLEU等)和人工评价指标来衡量模型的性能。CDial-GPT大模型在流畅性和上下文相关性方面表现出了较高的评分。
免责声明
该项目的LCCC数据集和预训练模型仅限于科研用途,并且由于数据的来源复杂性,项目团队无法保证过滤掉所有不当内容。使用本项目生成的对话内容,与项目作者无关。
以上是CDial-GPT项目的一个全面介绍,它的主要目标是为中文对话处理提供高质量的数据和模型工具,是研究和开发中文自然语言生成应用的优秀资源。