#基准测试

MMMU学习资料汇总 - 全面评估多模态AI模型能力的基准测试

2 个月前

MMMU 多模态理解专家AGI 基准测试 GPT-4V(ision)Github 开源项目

2 个月前

promptfoo学习资料汇总 - LLM应用测试与评估工具

2 个月前

promptfoo 测试驱动开发 LLM应用自动化红队基准测试 Github 开源项目

2 个月前

大型语言模型能否学习和遵循规则？探索LLM规则学习的新前沿

3 个月前

LLM 规则遵循 RuLES 语言模型评估基准测试 Github 开源项目

3 个月前

MIRACL: 跨18种语言的大规模多语言信息检索数据集

3 个月前

MIRACL 多语言信息检索维基百科语料库基准测试跨语言搜索 Github 开源项目

3 个月前

Q-Bench：多模态大语言模型在低层视觉任务上的基准测试

3 个月前

Q-Bench 低层视觉多模态大语言模型基准测试 ICLR2024 Github 开源项目

3 个月前

大型语言模型在规划和推理方面的能力研究

3 个月前

LLM 规划评估基准测试人工智能 Github 开源项目

3 个月前

持续学习基线方法概述及实现

3 个月前

Continual Learning Avalanche 实验基准测试模型性能 Github 开源项目

3 个月前

深入解析语音转文本基准测试框架：Picovoice Speech-to-Text Benchmark

3 个月前

语音转文本基准测试识别准确率计算效率模型大小 Github 开源项目

3 个月前

CARLA-Roach: 端到端城市自动驾驶的强化学习教练模仿

3 个月前

CARLA-Roach 自动驾驶强化学习模仿学习基准测试 Github 开源项目

3 个月前

BARK:一个开源的自动驾驶行为规划仿真与基准测试框架

3 个月前

BARK 自动驾驶行为模型仿真框架基准测试 Github 开源项目

3 个月前

相关项目

langchain-benchmarks

提供多种LLM任务基准测试工具，涵盖数据集收集、任务评估等全流程。依赖LangSmith平台，附有详细文档和实例，鼓励用户优化和测试解决方案。

MMMU

MMMU是一个新型基准测试，设计用于评估多模态模型在多学科任务中的表现，特别是需要大学水平的学科知识和深思熟虑的推理能力。该基准包含11.5K道来自大学考试、测验和教材的多模态题目，覆盖艺术设计、商业、科学、健康医学、人文社会科学及技术工程六大领域。不同于现有基准，MMMU专注于高级感知和领域特定知识的推理，挑战模型执行专家级任务。评估14个开源LMM和GPT-4V(ision)显示，即使是最先进的模型其准确率仅为56%，表明有巨大改进空间。

genrl

GenRL是一个基于PyTorch的强化学习库，提供可重现的算法实现和通用接口。它包含20多个从基础到高级的强化学习教程，并支持模块化和可扩展的Python编程。统一的训练和日志记录功能提高了代码复用性，同时自动超参数调整功能加速了基准测试。GenRL旨在支持新算法的实现，代码少于100行。适用于Python 3.6及以上版本，依赖于PyTorch和OpenAI Gym。

SEED-Bench

SEED-Bench是一个全面评估多模态大语言模型的基准测试。它包含28K个多项选择题，涵盖34个评估维度，包括文本和图像生成能力。该项目提供SEED-Bench-H、SEED-Bench-2-Plus等多个版本，分别针对不同评估方面。SEED-Bench为研究人员提供了一个客观比较多模态大语言模型性能的工具。

hyperfine

hyperfine是一个开源的命令行基准测试工具。它提供多次运行统计分析、任意shell命令测试、实时进度反馈等功能。支持预热运行、缓存清理和异常检测，可比较不同命令运行时间，导出多种格式结果。hyperfine还具备参数化测试能力，跨平台兼容性良好，适合开发者用于程序性能评估和优化。

MixEval

MixEval是一个动态更新的大语言模型评测基准，结合现有基准和真实用户查询构建而成。该基准在保持高准确度的同时，实现了快速、低成本和可重复的评测。MixEval提供更全面、公平的查询分布，并通过定期更新机制避免数据污染。作为一个高效可靠的评测工具，MixEval适用于各类大语言模型研究和应用场景。

Awesome-Language-Model-on-Graphs

该资源列表汇总了图上大语言模型(LLMs on Graphs)领域的前沿研究成果。内容涵盖纯图、文本属性图和文本配对图等多个方面,包括数据集、直接回答、启发式推理和算法推理等关键主题。列表基于综述论文整理,并持续更新,为研究人员提供全面参考,推动图上大语言模型研究进展。

crab

CRAB是一个构建语言模型代理基准环境的Python框架。该项目支持跨平台部署,提供统一接口访问多种环境。CRAB特点包括简单配置、创新的基准测试套件和图形评估方法。这些功能为开发和评估多模态语言模型代理提供了灵活的工具。

promptfoo

提供专业工具集，专为本地测试、评估及红队操作LLM应用设计。支持多种模型和API，确保应用安全可靠，提升评估效率并自动评分输出。适用于CLI、库和CI/CD环境，支持OpenAI、Anthropic等API，完全开源且本地运行，保障数据隐私。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com