中文 | English

ChatPiXiu

ChatPiXiu: Eat every ChatGPT - Output your own chatbot.

开源ChatGPT / 全面 / 轻量 / 易用
文章解读 · 视频解读

代码开源，大家放心使用，欢迎贡献! 注意：模型的license取决于模型提供方

💥最新讯息
💫OpenNLP计划
💫OpenChat-PiXiu
🌟开源ChatGPT调研
⛏️使用步骤
📄运行示例
📄结果展示
🛠️常见报错
💐参考资料&致谢
🌟赞助我们
🌈Starchart
🏆Contributors

OpenNLP计划

我们是谁？

我们是羡鱼智能【xianyu.ai】，主要成员是一群来自老和山下、西湖边上的咸鱼们，塘主叫作羡鱼，想在LLMs时代做点有意义的事！我们的口号是：做OpenNLP和OpenX！希望在CloseAI卷死我们之前退出江湖！

也许有一天，等到GPT-X发布的时候，有人会说NLP不存在了，但是我们想证明有人曾经来过、热爱过！在以ChatGPT/GPT4为代表的LLMs时代，在被CloseAI卷死之前，我们发起了OpenNLP计划，宗旨是OpenNLP for everyone!

【P0】OpenTextClassification：打造一流的文本分类项目，已开源
- 综述：done
- 开源项目：done
- papers解读：doing
- 炼丹术：done
【P0】OpenSE：句嵌入，自然语言处理的核心问题之一，doing
【P0】ChatPiXiu：ChatGPT开源平替及领域适应，doing
【P1】OpenLLMs：大语言模型，doing
【P2】OpenTextTagger：文本标注，分词、NER、词性标注等
OpenX：任重而道远

ChatPiXiu项目

ChatPiXiu项目为OpenNLP计划的第2个正式的开源项目，旨在Open ChatGPT for everyone！在以ChatGPT/GPT4为代表的LLMs时代，在被OpenAI卷死之前，做一点有意义的事情！未来有一天，等到GPT-X发布的时候，或许有人会说NLP不存在了，但是我们想证明有人曾来过！

1.开发计划

本项目的开发宗旨，打造全面且实用的ChatGPT模型库和文档库。Eat every ChatGPT - Output your own chatbot!

目前我们正在启动V1版本的开发，整体的开发计划如下，主要包括了文档和代码两类任务，数据的部分我们暂时将其分散到了各个子任务中。

V1版本：资料调研+通用最小实现+领域/任务适配

1.1 文档分支

文档分支主要负责项目文档的建设，包括通用技术文档和项目相关文档。

dev_for_docs：文档分支，主要负责资料调研（算力有限，有调查才有训练权）：

【P0】开源ChatGPT调研：持续更新，doing
【P0】训练技术调研：持续更新，doing
【P0】数据调研：doing
【P1】部署技术调研：TODO
【P2】基础模型调研：目前以LLaMA和GLM为主，doing
【P3】技术解读/教程：doing

1.2 代码分支

代码分支，负责具体的开发工作，包括数据处理、算法开发、算法评测等，分成通用最小实现和领域/任务适应两种，具体的：

dev_for_chatmini：通用最小实现分支，尽可能支持不同的基础模型和训练方式，提供可比较的实现。

【P0】ChatGPT最小复现：完整的RLHF复现SFT-RM-PPO，doing
【P0】适配不同的基座模型
适配不同的PEFT算法
【P2】探索新的训练方式
【P3】探索知识迁移：比如蒸馏

dev_for_chatzhihu：知乎及问答领域适配，主要想解决一些知乎使用过程中的痛点，比如问题冗余、回答太多等等。

【P0】收集知乎数据收集及处理
1. SFT数据
2. RLHF数据：答案打分
3. 摘要数据：答案/观点汇总、摘要
【P0】基于知乎数据做SFT
【P1】基于知乎数据做RLHF
【P2】输出知乎LoRA
【P3】和知乎热榜聊天的demo

dev_for_chatzhangsan：法律领域适配，张三犯了什么罪？

【P0】法律领域数据收集及处理
法律条文解释
【P1】罪名判定：张三犯了什么罪？

更多领域，敬请期待！

ChatPiXiu-Eat every ChatGPT - Output your own chatbot!

2.加入我们

OpenNLP计划的其他内容尚在筹备中，暂时只开源了本项目和OpenTextClassification项目。欢迎大家积极参与ChatPiXiu的建设和讨论，一起变得更强！

加入方式：

项目建设：可以在前面列出的开发计划中选择自己感兴趣的部分进行开发，建议优先选择高优先级的任务。包括资料调研和算法开发等工作。
OpenLLM技术交流群：知识在讨论中发展，QQ群：740679327
技术分享和讨论：输出倒逼输入，欢迎投稿，稿件会同步到本项目的docs目录和知乎专栏OpenNLP. 同时也欢迎大家积极的参与本项目的讨论https://github.com/catqaq/ChatPiXiu/discussions。

开源ChatGPT调研

1.开源ChatGTP平替

注：开源类ChatGPT/LLM汇总，持续更新中，欢迎贡献! 现已超过60+！

项目	基础模型	lang	机构	数据集	license	介绍	备注
LLaMA	LLaMA	Multi	meta	CCNet [67%], C4 [15%], GitHub [4.5%], Wikipedia [4.5%], Books [4.5%], ArXiv [2.5%], Stack Exchange[2%].	Apache-2.0 license	可能是目前开源ChatGPT用的最多的基础模型	支持多语言，但以英文为主
stanford_alpaca Alpaca	LLaMA	eng	stanford	alpaca_data	Apache-2.0 license	指令调优的 LLaMA 模型: An Instruction-following LLaMA Model. 让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令样本，SFT	FT模型语言以数据为准
ChatLLaMA	LLaMA		Nebuly+AI	-	license	数据集创建、使用 RLHF 进行高效训练以及推理优化。
Chinese-LLaMA-Alpaca	LLaMA	mutli	ymcui	-	Apache-2.0 license	Chinese LLaMA & Alpaca LLMs; 中文词表扩充
alpaca-lora	LLaMA		stanford	LLaMA-GPT4 dataset	Apache-2.0 license	LoRA
Chinese-alpaca-lora Luotuo-Chinese-LLM	LLaMA		-			LoRA
ChatGLM	GLM	cn/eng	清华	1T 标识符的中英双语数据	Apache-2.0 license	监督微调、反馈自助、人类反馈强化学习	PROJECT.md
FastChat Vicuna	LLaMA	eng	UC Berkeley, CMU, Stanford, UCSD and MBZUAI	ShareGPT, 70k问答指令数据	Apache-2.0 license	SFT，使用GPT-4作为评判标准，结果显示Vicuna-13B在超过90%的情况下实现了与ChatGPT和Bard相匹敌的能力。
Chinese-Vicuna	LLaMA	cn	-	-	Apache-2.0 license	LoRA
EasyLM Koala考拉	LLaMA multi	eng	UC伯克利	ChatGPT数据和开源数据（Open Instruction Generalist (OIG)、斯坦福 Alpaca 模型使用的数据集、Anthropic HH、OpenAI WebGPT、OpenAI Summarization）	Apache-2.0 license	SFT/13B/500k条数据
ColossalChat	LLaMA		ColossalAI	InstructionWild:104K bilingual datasets	LICENSE	SFT-RM-RLHF
ChatRWKV	RWKV		BlinkDL	-	[Apache-2.0