#ORPO

orpo - 无参考模型的语言模型偏好优化技术
人工智能Github开源项目自然语言处理模型训练机器学习ORPO
ORPO是一种新型语言模型训练方法,无需参考模型即可实现偏好优化。项目展示了ORPO在AlpacaEval、MT-Bench和IFEval等基准测试中的性能。ORPO训练的Mistral-ORPO-β模型在AlpacaEval官方排行榜上获得14.7%的长度控制胜率。项目开源了多个预训练模型和训练日志,为AI研究和开发提供了重要资源。
Barcenas-14b-Phi-3-medium-ORPO - 模型通过ORPO方法提升对话能力
Github开源项目模型数据集Huggingface对话能力ORPOVAGOsolutionsBarcenas-14b-Phi-3-medium-ORPO
该模型利用ORPO方法,基于VAGOsolutions/SauerkrautLM-Phi-3-medium,通过mlabonne/orpo-dpo-mix-40k数据集训练,旨在提高对话能力和语境理解。
Llama3.1-8B-Chinese-Chat - Llama3.1-8B中英双语指令微调模型
Github开源项目自然语言处理机器学习模型HuggingfaceLlama3.1ORPO中文聊天模型
Llama3.1-8B-Chinese-Chat是一个针对中英用户优化的大型语言模型,基于Meta-Llama-3.1-8B-Instruct开发。该模型经过ORPO算法微调,具备角色扮演和工具使用等多项功能。它支持128K上下文长度,提供BF16和多种GGUF版本,可通过Python或LM Studio使用。模型开源供研究使用,使用时请注明引用。
Barcenas-Llama3-8b-ORPO - ORPO方法优化的Llama 3对话模型
Github开源项目机器学习人工智能模型语言模型模型Llama 3HuggingfaceORPO
Barcenas-Llama3-8b-ORPO是一款经ORPO方法优化的语言模型,基于Llama-3-SauerkrautLM-8b-Instruct开发。通过整合dolphin-sft数据集和GPT-4增强的对话数据,该模型在对话交互方面实现了显著提升。这一开源项目源自墨西哥新莱昂州,为AI开发者提供了新的模型选择。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号