#评估基准

ToolQA:一个评估大语言模型外部工具使用能力的创新数据集

2 个月前

ToolQA 大语言模型数据集工具增强评估基准 Github 开源项目

2 个月前

Awesome-Code-LLM: 代码大语言模型研究的精选资源列表

2 个月前

代码生成大语言模型人工智能评估基准预训练 Github 开源项目

2 个月前

Granite代码模型：IBM开源的强大代码智能基础模型

2 个月前

Granite Code Models 代码生成指令微调开源模型评估基准 Github 开源项目

2 个月前

HalluQA: 评估中文大语言模型的幻觉现象

2 个月前

HalluQA 大型语言模型中文幻觉评估基准问答任务 Github 开源项目

2 个月前

MMBench: 全面评估多模态模型能力的基准测试

2 个月前

MMBench 多模态模型评估基准视觉语言模型循环评估 Github 开源项目

2 个月前

BigCodeBench: 一个评估大型语言模型代码生成能力的基准测试

2 个月前

BigCodeBench 代码生成评估基准大语言模型编程能力 Github 开源项目

2 个月前

ALCE: 让大语言模型生成带引用的文本

2 个月前

ALCE 大语言模型自动引用文本生成评估基准 Github 开源项目

2 个月前

T2I-CompBench: 开创文本到图像生成的新纪元

2 个月前

T2I-CompBench++文本生成图像评估基准组合能力 AI模型 Github 开源项目

2 个月前

Open-Instruct: 开放指令语言模型训练项目

2 个月前

模型微调语言模型开源项目 AI训练评估基准 Github

2 个月前

深入探讨基础模型排行榜:一场人工智能评估的革命

3 个月前

基础模型评估基准排行榜人工智能机器学习 Github 开源项目

3 个月前

相关项目

open-instruct

open-instruct是一个致力于指令微调预训练语言模型的开源项目。它提供了基于最新技术和公开数据集的模型微调代码，以及多项基准测试的评估工具。项目发布了包括Tülu系列在内的多个微调模型检查点。open-instruct支持全参数微调、LoRA和QLoRA等高效方法，并提供完整的训练和评估脚本。该工具集为研究人员和开发者提供了探索指令调优大语言模型的全面解决方案。

awesome-foundation-model-leaderboards

本项目收录了多样化的基础模型评估榜单、开发工具和评估机构信息。涵盖文本、图像、代码、数学等领域的模型评估,同时包含解决方案和数据导向的评估。项目提供榜单搜索功能,便于快速查找。这一资源有助于研究人员和开发者比较和分析不同基础模型的性能。

ALCE

ALCE是一个用于评估大语言模型生成引用文本能力的基准工具。它包含ASQA、QAMPARI和ELI5三个数据集，用于自动评估模型生成文本的流畅度、正确性和引用质量。ALCE提供了基线模型复现代码和评估方法，为研究人员提供了改进大语言模型文本生成和引用能力的综合解决方案。

T2I-CompBench

T2I-CompBench++是一个用于评估组合式文本到图像生成的增强基准。它引入了人工评估图像-分数对、更全面的组合测试以及被Stable Diffusion 3等模型采用的新评估指标。该基准涵盖颜色、形状、纹理和空间关系等多个方面,通过多种方法全面衡量模型的组合能力。研究人员可利用此基准进行模型训练和评估,促进组合式图像生成技术的进步。

bigcodebench

BigCodeBench是一个具有挑战性的代码生成基准测试，用于评估大型语言模型的实际编程能力。它提供复杂指令和多样函数调用，包括数据集、生成和评估脚本。基于EvalPlus框架，BigCodeBench实现精确评估和排名，提供预生成样本以加速研究。支持多种评估环境，采用unittest进行代码测试，为研究人员提供全面工具。

MMBench

MMBench是评估视觉语言模型多模态理解能力的基准测试集。它包含近3000道多项选择题,涵盖20个能力维度,采用循环评估和LLM选项提取等创新方法,提供可靠客观的评估。通过细粒度的能力测试和可重复的评价标准,MMBench为多模态模型开发提供了有价值的反馈。

HalluQA

HalluQA是一个评估中文大语言模型幻觉问题的基准测试。该项目包含450个涵盖多领域的对抗性问题，考虑中国特色文化因素。HalluQA提供数据集、评估脚本和多选任务，采用GPT-4评估非幻觉率。研究结果揭示不同模型在处理误导性和知识性问题的表现，为中文大语言模型的改进提供参考。

granite-code-models

Granite Code Models是一系列专注于代码生成任务的解码器模型，涵盖116种编程语言。这些模型在代码生成、解释、修复和翻译等多项任务中表现出色。模型使用合规数据训练，以Apache 2.0许可发布，可用于研究和商业目的。该系列包括基础模型和指令调优模型，参数规模从3B到34B不等，满足不同需求。

Awesome-Code-LLM

Awesome-Code-LLM汇集了代码生成领域的最新研究成果和资源。项目包含主要模型的性能排行榜、评估工具包介绍,以及按预训练、指令微调、反馈对齐和提示工程等主题整理的相关论文。这一资源库为研究人员和开发者提供了深入了解代码生成大语言模型的全面参考。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com