🇨🇳中文 | 🌐English | 📖文档/Docs | 🤖模型/Models

TextGen: Implementation of Text Generation models

📖 Introduction

TextGen实现了多种文本生成模型，包括：LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型，开箱即用。

🔥 News

[2023/11/02] v1.1.2版本: GPT模型支持了NEFTune给embedding加噪SFT训练方法，SFT中使用 --neft_alpha 参数启用 NEFTune，例如 --neft_alpha 5。详见Release-v1.1.2

[2023/09/05] v1.1.1版本: 支持多卡推理，推理速度加倍，调库textgen做batch推理，多卡推理更方便、快速。详见Release-v1.1.1

[2023/08/23] v1.1.0版本: 发布基于ShareGPT4数据集微调的中英文Vicuna-13B模型shibing624/vicuna-baichuan-13b-chat，和对应的LoRA模型shibing624/vicuna-baichuan-13b-chat-lora，支持多轮对话，评测效果有提升，详见Release-v1.1.0

[2023/08/02] v1.0.2版本: 新增支持ChatGLM2和LLaMA2模型的SFT微调训练，详见Release-v1.0.2

[2023/06/15] v1.0.0版本: 新增ChatGLM/LLaMA/Bloom模型的多轮对话微调训练，并发布医疗问诊LoRA模型shibing624/ziya-llama-13b-medical-lora。详见Release-v1.0.0

[2023/06/02] v0.2.7版本: 新增ChatGLM/LLaMA/Bloom模型的SFT微调训练，并发布适用于通用对话和中文纠错的LoRA模型。详见Release-v0.2.7

😊 Feature

GPT：本项目基于PyTorch实现了 ChatGLM-6B 1,2,3 / Baichuan 1,2 / LLaMA 1,2 / BLOOM / Mistral / QWen 等GPT模型LoRA微调训练和预测，可以用于对话生成任务和领域微调训练
UDA/EDA：本项目实现了UDA(非核心词替换)、EDA和Back Translation(回译)算法，基于TF-IDF将句子中部分不重要词替换为同义词，随机词插入、删除、替换等方法，产生新的文本，实现了文本扩增
Seq2Seq：本项目基于PyTorch实现了Seq2Seq、ConvSeq2Seq、BART模型的训练和预测，可以用于文本翻译、对话生成、摘要生成等文本生成任务
T5：本项目基于PyTorch实现了T5和CopyT5模型训练和预测，可以用于文本翻译、对话生成、对联生成、文案撰写等文本生成任务
GPT2：本项目基于PyTorch实现了GTP2模型训练和预测，可以用于文章生成、对联生成等文本生成任务
SongNet：本项目基于PyTorch实现了SongNet模型训练和预测，可以用于规范格式的诗词、歌词等文本生成任务
TGLS：本项目实现了TGLS无监督相似文本生成模型，是一种“先搜索后学习”的文本生成方法，通过反复迭代学习候选集，最终模型能生成类似候选集的高质量相似文本

Release Models

release基于textgen训练的中文模型，模型已经release到HuggingFace models，指定模型名称textgen会自动下载模型，可直接使用。

Model	Arch	Introduction	Train Script	Predict Script
shibing624/t5-chinese-couplet	T5	fine-tuned中文对联后的模型	对联生成模型调研	predict script
shibing624/songnet-base-chinese-songci	SongNet	fine-tuned宋词后的模型	training script	predict script
shibing624/songnet-base-chinese-couplet	SongNet	fine-tuned对联后的模型	training script	predict script
shibing624/chatglm-6b-csc-zh-lora	ChatGLM-6B	在27万中文拼写纠错数据shibing624/CSC上微调了一版ChatGLM-6B，纠错效果有提升，发布微调后的LoRA权重	training script	predict script
shibing624/chatglm-6b-belle-zh-lora	ChatGLM-6B	在100万条中文ChatGPT指令Belle数据集BelleGroup/train_1M_CN上微调了一版ChatGLM-6B，问答效果有提升，发布微调后的LoRA权重	training script	predict script
shibing624/llama-13b-belle-zh-lora	LLaMA-13B	在100万条中文ChatGPT指令Belle数据集BelleGroup/train_1M_CN上微调了一版Llama-13B，问答效果有提升，发布微调后的LoRA权重	training script	predict script
shibing624/chinese-alpaca-plus-7b-hf	LLaMA-7B	中文LLaMA-Plus, Alpaca-Plus 7B版本，在LLaMA-7B上扩充了中文词表并继续预训练120G文本（通用领域），在4M指令数据集上微调后得到的中文Alpaca-plus模型	training script	predict script
shibing624/chinese-alpaca-plus-13b-hf	LLaMA-13B	中文LLaMA-Plus, Alpaca-Plus 13B版本，在LLaMA-13B上扩充了中文词表并继续预训练120G文本（通用领域），在4.3M指令数据集上微调后得到的中文Alpaca-plus模型	training script	predict script
shibing624/ziya-llama-13b-medical-lora	LLaMA-13B	在240万条中英文医疗数据集shibing624/medical上微调了一版Ziya-LLaMA-13B模型，医疗问答效果有提升，发布微调后的LoRA权重	training script	predict script
shibing624/vicuna-baichuan-13b-chat	Baichuan-13B-Chat	在10万条多语言ShareGPT GPT4多轮对话数据集shibing624/sharegpt_gpt4上SFT微调了一版baichuan-13b-chat多轮问答模型，日常问答和医疗问答效果有提升，发布微调后的完整模型权重	training script	predict script

Evaluation

Model	Arch	Introduction	Score
LLaMA-7B-Chinese-Alpaca	LLaMA-7B	复用ymcui/Chinese-LLaMA-Alpaca的评估case和得分	4.92
LLaMA-13B-Chinese-Alpaca	LLaMA-13B	复用ymcui/Chinese-LLaMA-Alpaca的评估case和得分	7.05
ChatGLM-6B	ChatGLM-6B	基于原生`THUDM/chatglm-6b`评估测试集得分	7.16
ChatGLM-6B-v1.1	ChatGLM-6B	基于原生`THUDM/chatglm-6b`v1.1英文优化版模型评估测试集得分	7.18
shibing624/chatglm-6b-belle-zh-lora	ChatGLM-6B