#监督微调

alignment-handbook

《Alignment Handbook》为ML社区提供了一系列全面的训练配方，专注于通过人工反馈强化学习（RLHF）等技术，继续训练和调整语言模型，以匹配人类和AI的偏好。该手册包括从数据收集、模型训练到绩效评估的完整流程，以及最新的训练代码和数据集，旨在帮助研究人员和开发人员构建更安全、更有效的AI系统。

data_management_LLM

该项目汇总了大型语言模型训练数据管理的相关资源。内容涵盖预训练和监督微调阶段，探讨领域组成、数据数量和质量等关键方面。项目还收录了数据去重、毒性过滤等技术，以及不同因素间的关系研究。这些资源为优化LLM训练数据管理提供了全面参考。

GrammarGPT是一个基于开源大语言模型的中文语法纠错系统。该项目采用混合数据集进行监督微调，结合了ChatGPT生成的数据和人工标注的数据。它提出了一种启发式方法引导ChatGPT生成非语法性句子，并运用错误不变增强技术提升模型纠正中文母语者语法错误的能力。这一创新为开源大模型在中文语法纠错领域的应用开辟了新的可能。

InsTag是大型语言模型监督微调数据分析工具,通过标记和分类用户查询,量化评估数据多样性与复杂性。该工具为研究人员提供模型训练优化依据,基于InsTag分析结果,仅需6K样本即可训练出TagLM模型。在MT-Bench评测中,TagLM表现优于多个开源LLM,凸显了InsTag在提升LLM训练效率方面的价值。

相关文章

Article Cover

大型语言模型的数据管理:提升AI性能的关键

Article Cover

GrammarGPT：革新中文语法纠错的开源语言模型

Article Cover

InsTag: 一款用于大型语言模型监督微调数据分析的创新工具

Article Cover

alignment-handbook 入门指南 - 打造稳健的语言模型对齐流程

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号