#数据集构建
相关项目
fondant
Fondant是一个开源数据框架,旨在协同构建和共享数据集。它允许用户无需移动源数据即可进行数据初始化、处理和加载,支持可插拔的工作流、自定义组件以及版本追踪与数据浏览。Fondant适用于跨云端环境(如Google Cloud的Vertex和AWS的Sagemaker),使数据处理简单、可扩展,是生产环境中处理和共享数据集的理想选择。
GrammarGPT
GrammarGPT是一个基于开源大语言模型的中文语法纠错系统。该项目采用混合数据集进行监督微调,结合了ChatGPT生成的数据和人工标注的数据。它提出了一种启发式方法引导ChatGPT生成非语法性句子,并运用错误不变增强技术提升模型纠正中文母语者语法错误的能力。这一创新为开源大模型在中文语法纠错领域的应用开辟了新的可能。