#UltraFeedback

UltraChat: 大规模、高质量的对话数据集及其在对话模型训练中的应用

3 个月前

UltraLM UltraFeedback UltraChat 模型数据集 Github 开源项目

3 个月前

SimPO:一种简单而高效的无参考奖励偏好优化方法

3 个月前

SimPO DPO Gemma UltraFeedback ArmoRM Github 开源项目

3 个月前

相关项目

SimPO

SimPO是一个无需参考模型的简化偏好优化算法，表现优于AlpacaEval 2、MT-Bench和Arena-Hard等多个基准。2024年7月更新发布的SimPO模型通过微调Google的gemma-2 9B模型，达成了72.4% AlapcaEval 2 LC胜率和59.1% Arena-Hard胜率。更多详情、训练脚本和数据生成脚本请访问SimPO的GitHub仓库。

UltraChat

UltraChat项目专注于构建开源、大规模、多轮对话数据，目标是打造具有广泛会话能力的强大语言模型。最新发布的模型和数据集包括UltraLM-13B-v2.0、UltraRM和UltraCM，在AlpacaEval基准测试上表现优异。UltraChat数据集分为三大部分：世界问题、写作与创作、现有材料辅助，对话涵盖了技术、艺术和创业等领域。项目数据仅供研究和教育用途，基于MIT许可证发布。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com