#ORPO

orpo - 无参考模型的语言模型偏好优化技术

人工智能Github开源项目自然语言处理模型训练机器学习ORPO

ORPO是一种新型语言模型训练方法，无需参考模型即可实现偏好优化。项目展示了ORPO在AlpacaEval、MT-Bench和IFEval等基准测试中的性能。ORPO训练的Mistral-ORPO-β模型在AlpacaEval官方排行榜上获得14.7%的长度控制胜率。项目开源了多个预训练模型和训练日志，为AI研究和开发提供了重要资源。

Barcenas-14b-Phi-3-medium-ORPO - 模型通过ORPO方法提升对话能力

Github开源项目模型数据集Huggingface对话能力ORPOVAGOsolutionsBarcenas-14b-Phi-3-medium-ORPO

该模型利用ORPO方法，基于VAGOsolutions/SauerkrautLM-Phi-3-medium，通过mlabonne/orpo-dpo-mix-40k数据集训练，旨在提高对话能力和语境理解。

Llama3.1-8B-Chinese-Chat - Llama3.1-8B中英双语指令微调模型

Github开源项目自然语言处理机器学习模型HuggingfaceLlama3.1ORPO中文聊天模型

Llama3.1-8B-Chinese-Chat是一个针对中英用户优化的大型语言模型,基于Meta-Llama-3.1-8B-Instruct开发。该模型经过ORPO算法微调,具备角色扮演和工具使用等多项功能。它支持128K上下文长度,提供BF16和多种GGUF版本,可通过Python或LM Studio使用。模型开源供研究使用,使用时请注明引用。

Barcenas-Llama3-8b-ORPO - ORPO方法优化的Llama 3对话模型

Github开源项目机器学习人工智能模型语言模型模型Llama 3HuggingfaceORPO

Barcenas-Llama3-8b-ORPO是一款经ORPO方法优化的语言模型，基于Llama-3-SauerkrautLM-8b-Instruct开发。通过整合dolphin-sft数据集和GPT-4增强的对话数据，该模型在对话交互方面实现了显著提升。这一开源项目源自墨西哥新莱昂州，为AI开发者提供了新的模型选择。

相关文章

Article Cover

ORPO: 无需参考模型的整体偏好优化方法

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号