#Open LLM Leaderboard
lm-evaluation-harness - 统一测试生成式语言模型的多任务评估框架
Language Model Evaluation HarnessOpen LLM LeaderboardGPT-NeoXHugging FacevLLMGithub开源项目
该项目提供统一框架,用于评估生成式语言模型,通过60多个标准学术基准和数百个子任务实现多样化测试。更新包括新的Open LLM Leaderboard任务、内部重构、基于配置的任务创建、Jinja2提示设计支持等高级配置选项,旨在简化和优化模型评估。支持快速高效推理、商业API、本地模型和基准测试。被广泛应用于机构如NVIDIA、Cohere、BigScience等,也支撑了🤗 Hugging Face的Open LLM Leaderboard。
CarbonBeagle-11B - 模型合并实验展示出色文本生成能力
CarbonBeagle-11BOpen LLM Leaderboard模型合并准确率Github模型开源项目文本生成Huggingface
CarbonBeagle-11B合并了不同架构和规模的模型,在文本生成任务中效果显著。采用线性合并方法,将vicgalle/NeuralBeagle-11B与jeonsworld/CarbonVillain-en-10.7B-v4结合,在基准测试中表现良好,特别是在HellaSwag(10-Shot)中取得了88.93的标准化准确率,在AI2推理挑战和Winogrande等数据集上展现出高效能力。模型配置为float16精度,以确保合并后的灵活性和稳定性。详细评估结果可在Open LLM Leaderboard查看。增加应用领域的实际效果和用户反馈能帮助用户更好地了解其实际应用价值。
Mistral-7B-Instruct-v0.3 - Mistral-7B-Instruct-v0.3模型的指令微调与功能调用概述
Github模型功能调用开源项目Huggingface模型微调Mistral-7B-Instruct-v0.3文本生成Open LLM Leaderboard
Mistral-7B-Instruct-v0.3模型经过指令微调,支持32768词汇和v3 Tokenizer,并具备功能调用能力。在多个评测如AI2 Reasoning Challenge和HellaSwag中展示良好表现。该模型支持多种使用方式,包括简单安装、下载指南及在Hugging Face上的文本生成,利用CLI命令与模型对话,或调用自定义功能。尽管缺乏内容审查机制,Mistral团队正与社区合作,以确保输出适合多种环境。
CalmeRys-78B-Orpo-v0.1 - 高级文本生成模型,适用于多任务应用
机器学习Github模型开源项目精度Huggingface文本生成CalmeRys-78B-OrpoOpen LLM Leaderboard
CalmeRys-78B-Orpo-v0.1是一款微调自MaziyarPanahi/calme-2.4-rys-78b的模型,利用mlabonne/orpo-dpo-mix-40k数据集,支持角色扮演、推理等多种文本生成场景,具备较高准确率和长文本连贯性。
Llama-3-8B-Instruct-v0.8 - 高效文本生成的先进开源模型
Llama-3-8B-InstructGithub开源项目文本生成Open LLM Leaderboard量化Huggingface机器学习模型
本页面介绍了Llama-3-8B-Instruct-v0.8模型,该模型是在MaziyarPanahi的Llama-3-8B-Instruct-v0.4基础上开发的,专注于高效的文本生成。它在AI2推理挑战、HellaSwag等多个基准测试中表现出色,是前五名8B模型之一。量化的GGUF变体使其在多种应用场景下性能更高效,详细的评价结果请参考开放LLM排行榜。