#基准测试

BIG-bench: 探索大规模语言模型的极限

3 个月前
Cover of BIG-bench: 探索大规模语言模型的极限

MTEB: 大规模文本嵌入基准测试

3 个月前
Cover of MTEB: 大规模文本嵌入基准测试

DS-1000: 一个自然可靠的数据科学代码生成基准

3 个月前
Cover of DS-1000: 一个自然可靠的数据科学代码生成基准

InfiniteBench: 突破100K令牌的长上下文评估基准

3 个月前
Cover of InfiniteBench: 突破100K令牌的长上下文评估基准

Parameter-Efficient Transfer Learning Benchmark: 一个统一的视觉参数高效迁移学习基准

3 个月前
Cover of Parameter-Efficient Transfer Learning Benchmark: 一个统一的视觉参数高效迁移学习基准

PyTorch Benchmark: 性能评估的强大工具

3 个月前
Cover of PyTorch Benchmark: 性能评估的强大工具

基于细粒度后期交互的多模态检索增强视觉问答系统

3 个月前
Cover of 基于细粒度后期交互的多模态检索增强视觉问答系统

AGIEval:一个人类中心的基础模型评估基准测试

3 个月前
Cover of AGIEval:一个人类中心的基础模型评估基准测试

GPU-Benchmarks-on-LLM-Inference: 探索大语言模型推理的GPU性能对比

3 个月前
Cover of GPU-Benchmarks-on-LLM-Inference: 探索大语言模型推理的GPU性能对比

NAVSIM: 先进的无反应自动驾驶车辆模拟与测试平台

3 个月前
Cover of NAVSIM: 先进的无反应自动驾驶车辆模拟与测试平台
相关项目
Project Cover

langchain-benchmarks

提供多种LLM任务基准测试工具,涵盖数据集收集、任务评估等全流程。依赖LangSmith平台,附有详细文档和实例,鼓励用户优化和测试解决方案。

Project Cover

MMMU

MMMU是一个新型基准测试,设计用于评估多模态模型在多学科任务中的表现,特别是需要大学水平的学科知识和深思熟虑的推理能力。该基准包含11.5K道来自大学考试、测验和教材的多模态题目,覆盖艺术设计、商业、科学、健康医学、人文社会科学及技术工程六大领域。不同于现有基准,MMMU专注于高级感知和领域特定知识的推理,挑战模型执行专家级任务。评估14个开源LMM和GPT-4V(ision)显示,即使是最先进的模型其准确率仅为56%,表明有巨大改进空间。

Project Cover

genrl

GenRL是一个基于PyTorch的强化学习库,提供可重现的算法实现和通用接口。它包含20多个从基础到高级的强化学习教程,并支持模块化和可扩展的Python编程。统一的训练和日志记录功能提高了代码复用性,同时自动超参数调整功能加速了基准测试。GenRL旨在支持新算法的实现,代码少于100行。适用于Python 3.6及以上版本,依赖于PyTorch和OpenAI Gym。

Project Cover

SEED-Bench

SEED-Bench是一个全面评估多模态大语言模型的基准测试。它包含28K个多项选择题,涵盖34个评估维度,包括文本和图像生成能力。该项目提供SEED-Bench-H、SEED-Bench-2-Plus等多个版本,分别针对不同评估方面。SEED-Bench为研究人员提供了一个客观比较多模态大语言模型性能的工具。

Project Cover

hyperfine

hyperfine是一个开源的命令行基准测试工具。它提供多次运行统计分析、任意shell命令测试、实时进度反馈等功能。支持预热运行、缓存清理和异常检测,可比较不同命令运行时间,导出多种格式结果。hyperfine还具备参数化测试能力,跨平台兼容性良好,适合开发者用于程序性能评估和优化。

Project Cover

MixEval

MixEval是一个动态更新的大语言模型评测基准,结合现有基准和真实用户查询构建而成。该基准在保持高准确度的同时,实现了快速、低成本和可重复的评测。MixEval提供更全面、公平的查询分布,并通过定期更新机制避免数据污染。作为一个高效可靠的评测工具,MixEval适用于各类大语言模型研究和应用场景。

Project Cover

Awesome-Language-Model-on-Graphs

该资源列表汇总了图上大语言模型(LLMs on Graphs)领域的前沿研究成果。内容涵盖纯图、文本属性图和文本配对图等多个方面,包括数据集、直接回答、启发式推理和算法推理等关键主题。列表基于综述论文整理,并持续更新,为研究人员提供全面参考,推动图上大语言模型研究进展。

Project Cover

crab

CRAB是一个构建语言模型代理基准环境的Python框架。该项目支持跨平台部署,提供统一接口访问多种环境。CRAB特点包括简单配置、创新的基准测试套件和图形评估方法。这些功能为开发和评估多模态语言模型代理提供了灵活的工具。

Project Cover

promptfoo

提供专业工具集,专为本地测试、评估及红队操作LLM应用设计。支持多种模型和API,确保应用安全可靠,提升评估效率并自动评分输出。适用于CLI、库和CI/CD环境,支持OpenAI、Anthropic等API,完全开源且本地运行,保障数据隐私。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号