#AlpacaEval
alpaca_eval - 精确且成本低的指令追随语言模型自动评估工具
开源项目AlpacaEval评估自动评价instruction-followingGPT-4Github
AlpacaEval是一款基于LLM的自动评估工具,针对指令追随模型(如ChatGPT)的评估,具备快速、低成本和高度人类相关性(0.98)的特点。主要功能包括模型排行榜、自动评估器、评估器构建工具包及20K人工偏好数据。AlpacaEval 2.0通过长度控制胜率,提高了与ChatBot Arena的对应性,适合模型开发阶段的快速评估。
Xwin-LM-7B-V0.2 - 优化大语言模型对齐技术,显著提升性能
AlpacaEvalXwin-LM对齐技术大语言模型强化学习HuggingfaceGithub开源项目模型
Xwin-LM项目开发并开源大语言模型对齐技术,涵盖监督微调、奖励模型等多种方法。基于Llama2构建的版本在AlpacaEval评测中表现卓越,超过GPT-4。最新的Xwin-LM-7B-V0.2和13B-V0.2在与GPT-4的比较中分别达到59.83%和70.36%胜率。项目不断更新以提高模型的稳定性和可重复性。