Logo

#基准测试

MMMU学习资料汇总 - 全面评估多模态AI模型能力的基准测试

1 个月前
Cover of MMMU学习资料汇总 - 全面评估多模态AI模型能力的基准测试

大型语言模型能否学习和遵循规则?探索LLM规则学习的新前沿

2 个月前
Cover of 大型语言模型能否学习和遵循规则?探索LLM规则学习的新前沿

Q-Bench:多模态大语言模型在低层视觉任务上的基准测试

2 个月前
Cover of Q-Bench:多模态大语言模型在低层视觉任务上的基准测试

持续学习基线方法概述及实现

2 个月前
Cover of 持续学习基线方法概述及实现

CARLA-Roach: 端到端城市自动驾驶的强化学习教练模仿

2 个月前
Cover of CARLA-Roach: 端到端城市自动驾驶的强化学习教练模仿

promptfoo学习资料汇总 - LLM应用测试与评估工具

1 个月前
Cover of promptfoo学习资料汇总 - LLM应用测试与评估工具

MIRACL: 跨18种语言的大规模多语言信息检索数据集

2 个月前
Cover of MIRACL: 跨18种语言的大规模多语言信息检索数据集

大型语言模型在规划和推理方面的能力研究

2 个月前
Cover of 大型语言模型在规划和推理方面的能力研究

深入解析语音转文本基准测试框架:Picovoice Speech-to-Text Benchmark

2 个月前
Cover of 深入解析语音转文本基准测试框架:Picovoice Speech-to-Text Benchmark

BARK:一个开源的自动驾驶行为规划仿真与基准测试框架

2 个月前
Cover of BARK:一个开源的自动驾驶行为规划仿真与基准测试框架

相关项目

Project Cover
langchain-benchmarks
提供多种LLM任务基准测试工具,涵盖数据集收集、任务评估等全流程。依赖LangSmith平台,附有详细文档和实例,鼓励用户优化和测试解决方案。
Project Cover
MMMU
MMMU是一个新型基准测试,设计用于评估多模态模型在多学科任务中的表现,特别是需要大学水平的学科知识和深思熟虑的推理能力。该基准包含11.5K道来自大学考试、测验和教材的多模态题目,覆盖艺术设计、商业、科学、健康医学、人文社会科学及技术工程六大领域。不同于现有基准,MMMU专注于高级感知和领域特定知识的推理,挑战模型执行专家级任务。评估14个开源LMM和GPT-4V(ision)显示,即使是最先进的模型其准确率仅为56%,表明有巨大改进空间。
Project Cover
genrl
GenRL是一个基于PyTorch的强化学习库,提供可重现的算法实现和通用接口。它包含20多个从基础到高级的强化学习教程,并支持模块化和可扩展的Python编程。统一的训练和日志记录功能提高了代码复用性,同时自动超参数调整功能加速了基准测试。GenRL旨在支持新算法的实现,代码少于100行。适用于Python 3.6及以上版本,依赖于PyTorch和OpenAI Gym。
Project Cover
SEED-Bench
SEED-Bench是一个全面评估多模态大语言模型的基准测试。它包含28K个多项选择题,涵盖34个评估维度,包括文本和图像生成能力。该项目提供SEED-Bench-H、SEED-Bench-2-Plus等多个版本,分别针对不同评估方面。SEED-Bench为研究人员提供了一个客观比较多模态大语言模型性能的工具。
Project Cover
hyperfine
hyperfine是一个开源的命令行基准测试工具。它提供多次运行统计分析、任意shell命令测试、实时进度反馈等功能。支持预热运行、缓存清理和异常检测,可比较不同命令运行时间,导出多种格式结果。hyperfine还具备参数化测试能力,跨平台兼容性良好,适合开发者用于程序性能评估和优化。
Project Cover
MixEval
MixEval是一个动态更新的大语言模型评测基准,结合现有基准和真实用户查询构建而成。该基准在保持高准确度的同时,实现了快速、低成本和可重复的评测。MixEval提供更全面、公平的查询分布,并通过定期更新机制避免数据污染。作为一个高效可靠的评测工具,MixEval适用于各类大语言模型研究和应用场景。
Project Cover
Awesome-Language-Model-on-Graphs
该资源列表汇总了图上大语言模型(LLMs on Graphs)领域的前沿研究成果。内容涵盖纯图、文本属性图和文本配对图等多个方面,包括数据集、直接回答、启发式推理和算法推理等关键主题。列表基于综述论文整理,并持续更新,为研究人员提供全面参考,推动图上大语言模型研究进展。
Project Cover
crab
CRAB是一个构建语言模型代理基准环境的Python框架。该项目支持跨平台部署,提供统一接口访问多种环境。CRAB特点包括简单配置、创新的基准测试套件和图形评估方法。这些功能为开发和评估多模态语言模型代理提供了灵活的工具。
Project Cover
promptfoo
提供专业工具集,专为本地测试、评估及红队操作LLM应用设计。支持多种模型和API,确保应用安全可靠,提升评估效率并自动评分输出。适用于CLI、库和CI/CD环境,支持OpenAI、Anthropic等API,完全开源且本地运行,保障数据隐私。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号