#无反馈强化学习

Infinity-Instruct-3M-0613-Mistral-7B - 提升语言模型性能的开源指导调优模型

Infinity Instruct无反馈强化学习Github开源项目指令微调AlpacaEval2.0Huggingface开源模型模型

Infinity-Instruct-3M-0613-Mistral-7B是一个开源的指导调优模型，无需人类反馈的强化学习。该模型在百万级指令数据集上经过微调，在AlpacaEval 2.0基准测试中取得了25.5的高分，表现优于Mixtral 8x7B v0.1、Gemini Pro和GPT-3.5。通过低成本训练提高了Mistral-7B的基础能力和对话能力，并在MT-Bench测试中表现出色。适合多样化的下游任务，该模型为研究与应用提供了良好的支持。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号