#UltraFeedback

SimPO - 无需参考模型的简化优化算法

SimPODPOGemmaUltraFeedbackArmoRMGithub开源项目

SimPO是一个无需参考模型的简化偏好优化算法，表现优于AlpacaEval 2、MT-Bench和Arena-Hard等多个基准。2024年7月更新发布的SimPO模型通过微调Google的gemma-2 9B模型，达成了72.4% AlapcaEval 2 LC胜率和59.1% Arena-Hard胜率。更多详情、训练脚本和数据生成脚本请访问SimPO的GitHub仓库。

UltraChat - 大规模、多样化的多轮对话数据和模型

UltraLMUltraFeedbackUltraChat模型数据集Github开源项目

UltraChat项目专注于构建开源、大规模、多轮对话数据，目标是打造具有广泛会话能力的强大语言模型。最新发布的模型和数据集包括UltraLM-13B-v2.0、UltraRM和UltraCM，在AlpacaEval基准测试上表现优异。UltraChat数据集分为三大部分：世界问题、写作与创作、现有材料辅助，对话涵盖了技术、艺术和创业等领域。项目数据仅供研究和教育用途，基于MIT许可证发布。

相关文章

Article Cover

SimPO:一种简单而高效的无参考奖励偏好优化方法

Article Cover

UltraChat: 大规模、高质量的对话数据集及其在对话模型训练中的应用

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号