#对齐数据
magpie - 利用提示对齐的语言模型从零生成高质量对齐数据
MagpieLLM对齐数据数据生成HuggingfaceGithub开源项目
Magpie 项目通过提示对齐的大型语言模型生成高质量的对齐数据,无需提示工程或种子问题。该方法通过对齐模型的预查询模板生成用户查询和响应,已在Llama-3、Qwen2、Phi 3 和 Gemma-2系列模型上测试。最新更新包括多款增强中文问答能力和推理能力的数据集。项目开放这些高质量数据,推动AI民主化,提升模型对齐过程的透明度。
Llama-3-8B-Magpie-Align-SFT-v0.3 - 多语种微调,新增20万中文指令数据集
高质量指令HuggingfaceMagpie多语言能力开源项目模型Llama-3-8BGithub对齐数据
本项目推出基于Meta-Llama-3-8B模型的改进版本,尤其增强了多语言支持。通过引入20万中文数据集,性能已可媲美官方Llama-3-8B-Instruct模型。该版本主要依赖自我微调,展示出高效执行能力。尽管未用到大量监督数据,模型仍在AlpacaEval与ArenaHard等基准测试中表现优异,提供了比传统高人力成本方法更高效的数据生成方案。