#基准测试

CRAB: 跨平台代理基准测试框架

3 个月前

开源项目 CRAB 多模态AI 语言模型基准测试跨平台 Github

3 个月前

Youku-mPLUG:开创中文视频-语言预训练新纪元

3 个月前

Youku-mPLUG 视频语言数据集预训练模型多模态基准测试 Github 开源项目

3 个月前

Retrieval-Augmented Visual Question Answering:一种基于多模态检索的视觉问答新方法

3 个月前

FLMR 视觉问答多模态检索预训练模型基准测试 Github 开源项目

3 个月前

图上的大语言模型：探索Awesome-Language-Model-on-Graphs项目

3 个月前

LLM 图推理基准测试知识图谱 Github 开源项目

3 个月前

深入解析TensorFlow基准测试框架

3 个月前

TensorFlow 基准测试性能评估 CNN PerfZero Github 开源项目

3 个月前

RoleLLM: 一个突破性的大型语言模型角色扮演框架

3 个月前

RoleLLM 大语言模型角色扮演基准测试微调 Github 开源项目

3 个月前

MeViS: 一个基于运动表达的大规模视频分割基准数据集

3 个月前

MeViS 视频分割运动表达数据集基准测试 Github 开源项目

3 个月前

MixEval: 革新大语言模型评估的动态基准

3 个月前

MixEval LLM评估基准测试动态评估模型排名 Github 开源项目

3 个月前

SEED-Bench: 一个用于评估多模态大语言模型的综合基准

3 个月前

SEED-Bench 多模态大语言模型基准测试评估维度人工智能 Github 开源项目

3 个月前

GenRL: 强化学习算法实现的开源库

3 个月前

GenRL PyTorch 强化学习算法实现基准测试 Github 开源项目

3 个月前

相关项目

langchain-benchmarks

提供多种LLM任务基准测试工具，涵盖数据集收集、任务评估等全流程。依赖LangSmith平台，附有详细文档和实例，鼓励用户优化和测试解决方案。

MMMU

MMMU是一个新型基准测试，设计用于评估多模态模型在多学科任务中的表现，特别是需要大学水平的学科知识和深思熟虑的推理能力。该基准包含11.5K道来自大学考试、测验和教材的多模态题目，覆盖艺术设计、商业、科学、健康医学、人文社会科学及技术工程六大领域。不同于现有基准，MMMU专注于高级感知和领域特定知识的推理，挑战模型执行专家级任务。评估14个开源LMM和GPT-4V(ision)显示，即使是最先进的模型其准确率仅为56%，表明有巨大改进空间。

genrl

GenRL是一个基于PyTorch的强化学习库，提供可重现的算法实现和通用接口。它包含20多个从基础到高级的强化学习教程，并支持模块化和可扩展的Python编程。统一的训练和日志记录功能提高了代码复用性，同时自动超参数调整功能加速了基准测试。GenRL旨在支持新算法的实现，代码少于100行。适用于Python 3.6及以上版本，依赖于PyTorch和OpenAI Gym。

SEED-Bench

SEED-Bench是一个全面评估多模态大语言模型的基准测试。它包含28K个多项选择题，涵盖34个评估维度，包括文本和图像生成能力。该项目提供SEED-Bench-H、SEED-Bench-2-Plus等多个版本，分别针对不同评估方面。SEED-Bench为研究人员提供了一个客观比较多模态大语言模型性能的工具。

hyperfine

hyperfine是一个开源的命令行基准测试工具。它提供多次运行统计分析、任意shell命令测试、实时进度反馈等功能。支持预热运行、缓存清理和异常检测，可比较不同命令运行时间，导出多种格式结果。hyperfine还具备参数化测试能力，跨平台兼容性良好，适合开发者用于程序性能评估和优化。

MixEval

MixEval是一个动态更新的大语言模型评测基准，结合现有基准和真实用户查询构建而成。该基准在保持高准确度的同时，实现了快速、低成本和可重复的评测。MixEval提供更全面、公平的查询分布，并通过定期更新机制避免数据污染。作为一个高效可靠的评测工具，MixEval适用于各类大语言模型研究和应用场景。

Awesome-Language-Model-on-Graphs

该资源列表汇总了图上大语言模型(LLMs on Graphs)领域的前沿研究成果。内容涵盖纯图、文本属性图和文本配对图等多个方面,包括数据集、直接回答、启发式推理和算法推理等关键主题。列表基于综述论文整理,并持续更新,为研究人员提供全面参考,推动图上大语言模型研究进展。

crab

CRAB是一个构建语言模型代理基准环境的Python框架。该项目支持跨平台部署,提供统一接口访问多种环境。CRAB特点包括简单配置、创新的基准测试套件和图形评估方法。这些功能为开发和评估多模态语言模型代理提供了灵活的工具。

promptfoo

提供专业工具集，专为本地测试、评估及红队操作LLM应用设计。支持多种模型和API，确保应用安全可靠，提升评估效率并自动评分输出。适用于CLI、库和CI/CD环境，支持OpenAI、Anthropic等API，完全开源且本地运行，保障数据隐私。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com