#ORPO

ORPO: 无需参考模型的整体偏好优化方法

2 个月前

ORPO 模型训练人工智能自然语言处理机器学习 Github 开源项目

2 个月前

相关项目

orpo

ORPO是一种新型语言模型训练方法，无需参考模型即可实现偏好优化。项目展示了ORPO在AlpacaEval、MT-Bench和IFEval等基准测试中的性能。ORPO训练的Mistral-ORPO-β模型在AlpacaEval官方排行榜上获得14.7%的长度控制胜率。项目开源了多个预训练模型和训练日志，为AI研究和开发提供了重要资源。

Barcenas-14b-Phi-3-medium-ORPO

该模型利用ORPO方法，基于VAGOsolutions/SauerkrautLM-Phi-3-medium，通过mlabonne/orpo-dpo-mix-40k数据集训练，旨在提高对话能力和语境理解。

Llama3.1-8B-Chinese-Chat

Llama3.1-8B-Chinese-Chat是一个针对中英用户优化的大型语言模型,基于Meta-Llama-3.1-8B-Instruct开发。该模型经过ORPO算法微调,具备角色扮演和工具使用等多项功能。它支持128K上下文长度,提供BF16和多种GGUF版本,可通过Python或LM Studio使用。模型开源供研究使用,使用时请注明引用。

Barcenas-Llama3-8b-ORPO

Barcenas-Llama3-8b-ORPO是一款经ORPO方法优化的语言模型，基于Llama-3-SauerkrautLM-8b-Instruct开发。通过整合dolphin-sft数据集和GPT-4增强的对话数据，该模型在对话交互方面实现了显著提升。这一开源项目源自墨西哥新莱昂州，为AI开发者提供了新的模型选择。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com