#基准测试

langchain-benchmarks - LLM任务基准测试工具
Github开源项目基准测试工具使用LangChain BenchmarksLangSmithLLM任务
提供多种LLM任务基准测试工具,涵盖数据集收集、任务评估等全流程。依赖LangSmith平台,附有详细文档和实例,鼓励用户优化和测试解决方案。
MMMU - 多学科多模态理解与推理基准评估专家级AGI
Github开源项目基准测试MMMU多模态理解专家AGIGPT-4V(ision)
MMMU是一个新型基准测试,设计用于评估多模态模型在多学科任务中的表现,特别是需要大学水平的学科知识和深思熟虑的推理能力。该基准包含11.5K道来自大学考试、测验和教材的多模态题目,覆盖艺术设计、商业、科学、健康医学、人文社会科学及技术工程六大领域。不同于现有基准,MMMU专注于高级感知和领域特定知识的推理,挑战模型执行专家级任务。评估14个开源LMM和GPT-4V(ision)显示,即使是最先进的模型其准确率仅为56%,表明有巨大改进空间。
genrl - 强化学习算法库,提供快速基准测试和示例教程
Github开源项目PyTorch强化学习基准测试GenRL算法实现
GenRL是一个基于PyTorch的强化学习库,提供可重现的算法实现和通用接口。它包含20多个从基础到高级的强化学习教程,并支持模块化和可扩展的Python编程。统一的训练和日志记录功能提高了代码复用性,同时自动超参数调整功能加速了基准测试。GenRL旨在支持新算法的实现,代码少于100行。适用于Python 3.6及以上版本,依赖于PyTorch和OpenAI Gym。
SEED-Bench - 多模态大语言模型评估基准
人工智能Github开源项目基准测试多模态大语言模型SEED-Bench评估维度
SEED-Bench是一个全面评估多模态大语言模型的基准测试。它包含28K个多项选择题,涵盖34个评估维度,包括文本和图像生成能力。该项目提供SEED-Bench-H、SEED-Bench-2-Plus等多个版本,分别针对不同评估方面。SEED-Bench为研究人员提供了一个客观比较多模态大语言模型性能的工具。
hyperfine - 命令行基准测试工具 hyperfine
Github开源项目命令行基准测试开源工具性能分析hyperfine
hyperfine是一个开源的命令行基准测试工具。它提供多次运行统计分析、任意shell命令测试、实时进度反馈等功能。支持预热运行、缓存清理和异常检测,可比较不同命令运行时间,导出多种格式结果。hyperfine还具备参数化测试能力,跨平台兼容性良好,适合开发者用于程序性能评估和优化。
MixEval - 动态更新的大语言模型评测基准
Github开源项目模型排名基准测试LLM评估MixEval动态评估
MixEval是一个动态更新的大语言模型评测基准,结合现有基准和真实用户查询构建而成。该基准在保持高准确度的同时,实现了快速、低成本和可重复的评测。MixEval提供更全面、公平的查询分布,并通过定期更新机制避免数据污染。作为一个高效可靠的评测工具,MixEval适用于各类大语言模型研究和应用场景。
Awesome-Language-Model-on-Graphs - 图上大语言模型研究进展及资源汇总
Github开源项目LLM知识图谱基准测试推理
该资源列表汇总了图上大语言模型(LLMs on Graphs)领域的前沿研究成果。内容涵盖纯图、文本属性图和文本配对图等多个方面,包括数据集、直接回答、启发式推理和算法推理等关键主题。列表基于综述论文整理,并持续更新,为研究人员提供全面参考,推动图上大语言模型研究进展。
crab - 多模态语言模型代理基准测试框架
Github开源项目多模态AI语言模型跨平台基准测试CRAB
CRAB是一个构建语言模型代理基准环境的Python框架。该项目支持跨平台部署,提供统一接口访问多种环境。CRAB特点包括简单配置、创新的基准测试套件和图形评估方法。这些功能为开发和评估多模态语言模型代理提供了灵活的工具。
Youku-mPLUG - 千万级中文视频语言数据集及多模态基准
Github开源项目预训练模型多模态基准测试Youku-mPLUG视频语言数据集
Youku-mPLUG是一个包含1000万条中文视频-语言数据的大规模数据集,源自优酷平台。数据涵盖20个超级类别和45个类别,经严格筛选确保质量。项目提供三个多模态视频基准数据集,用于评估模型在分类、检索和描述任务上的表现。研究团队基于GPT-3和BloomZ-7B开发的mPLUG-Video模型展现了出色的零样本学习能力。
MeViS - 基于运动表达的大规模视频目标分割数据集
Github开源项目数据集基准测试视频分割MeViS运动表达
MeViS是一个专注于运动表达引导目标分割的大规模视频数据集。它包含2,006个视频和28,570个描述性句子,为开发利用运动表达进行复杂视频场景分割的算法提供了平台。该数据集突出了运动在语言引导视频目标分割中的重要性,为相关研究提供了新的基准。
RoleLLM-public - 评估与提升大语言模型角色扮演能力的框架
Github开源项目大语言模型微调角色扮演基准测试RoleLLM
RoleLLM框架旨在评估和增强大语言模型的角色扮演能力。该框架包含RoleBench数据集、Context-Instruct知识提取方法、RoleGPT风格模仿技术和RoCIT微调策略。通过这些组件,RoleLLM显著提升了开源模型的角色扮演表现,在某些方面达到了与GPT-4相当的水平。这一框架为大语言模型在角色扮演任务中的应用提供了新的研究方向。
benchmarks - TensorFlow模型性能评估工具集
Github开源项目TensorFlow基准测试性能评估CNNPerfZero
TensorFlow benchmarks 是一个用于评估TensorFlow模型性能的开源工具集。它主要包含PerfZero基准测试框架,同时还保留了不再维护的CNN基准测试脚本。这些工具可用于测试各种神经网络模型的性能,进行跨平台比较,以及优化深度学习应用。对于研究TensorFlow模型性能的开发者,这是一个有价值的资源。
anomalib - 视觉异常检测算法开发与部署工具库
Github开源项目深度学习OpenVINO基准测试异常检测Anomalib
Anomalib是一个专注于视觉异常检测的开源深度学习库。它提供多种先进算法实现,支持模型训练、推理、基准测试和超参数优化。该库基于Lightning框架开发,简化了代码结构,并支持模型导出为OpenVINO格式以加速推理。Anomalib还包含便捷的推理工具,方便用户快速部署异常检测模型。其模块化设计和完善的文档使其成为研究和应用视觉异常检测的理想工具。
GPU-Benchmarks-on-LLM-Inference - GPU和Apple芯片在LLaMA 3推理性能基准对比
Github开源项目GPU基准测试LLaMA推理量化
项目对比测试了NVIDIA GPU和Apple芯片在LLaMA 3模型上的推理性能,涵盖从消费级到数据中心级的多种硬件。测试使用llama.cpp,展示了不同量化级别下8B和70B模型的推理速度。结果以表格形式呈现,包括生成速度和提示评估速度。此外,项目提供了编译指南、使用示例、VRAM需求估算和模型困惑度比较,为LLM硬件选型和部署提供全面参考。
navsim - 创新自动驾驶仿真与评估系统
Github开源项目自动驾驶基准测试仿真NAVSIM端到端驾驶
NAVSIM是一个创新的自动驾驶仿真与评估系统。它通过简化的场景鸟瞰图抽象来收集端到端驾驶指标,采用开环计算方法平衡效率和闭环评估一致性。该系统支持多种代理模型,提供标准化数据集,为自动驾驶研究提供高效可靠的评估工具。NAVSIM的非反应式设计和数据驱动方法有助于推进自动驾驶技术的发展。
AGIEval - 全面评估AI模型人类认知能力的基准测试
Github开源项目自然语言处理基础模型基准测试AGIEval人工智能评估
AGIEval是一个评估AI基础模型人类认知能力的综合基准。它包含20个源自高标准入学和资格考试的任务,涉及多个领域。AGIEval提供完整数据集、基线系统评估和详细评估方法,是衡量AI模型综合能力的权威工具。最新版本支持多语言评估,并设有完整排行榜,为研究人员提供了全面的AI模型能力评估平台。
Parameter-Efficient-Transfer-Learning-Benchmark - 统一视觉参数高效迁移学习评测基准
Github开源项目计算机视觉基准测试模型评估V-PETL Bench参数高效迁移学习
V-PETL Bench是一个统一的视觉参数高效迁移学习评测基准。该项目选择30个多样化数据集,涵盖图像识别、视频动作识别和密集预测任务,评估25种主流PETL算法。提供模块化代码库和完整训练资源,为计算机视觉研究提供全面评测平台。
sbc-reviews - 单板计算机性能评测与比较数据库
Github开源项目基准测试SBC单板计算机硬件评测Jeff Geerling
这是一个持续更新的单板计算机(SBC)评测数据库,收集了多款来自Raspberry Pi、Radxa、Orange Pi等厂商的SBC性能数据。涵盖CPU、GPU、内存、存储和网络等方面的基准测试结果,为开发者和爱好者提供客观详实的参考信息。
benchmark - 开源基准测试集评估PyTorch性能
Github开源项目PyTorch模型基准测试性能评估安装
PyTorch Benchmarks是评估PyTorch性能的开源基准测试集。它提供修改过的流行工作负载、标准化API和多后端支持。项目包含安装指南、多种基准测试方法和低噪声环境配置工具。支持自定义基准测试和库集成。通过夜间CI运行,持续评估PyTorch最新版本性能。
InfiniteBench - 长文本语言模型评测基准 挑战10万词极限
人工智能Github开源项目语言模型基准测试InfiniteBench长文本评估
InfiniteBench是一个专门评测语言模型超长文本处理能力的基准工具。它设计了12个涵盖真实和合成场景的任务,用于测试模型在10万词以上上下文中的理解和推理能力。该基准不仅有助于推动语言模型技术进步,还为改进LLM应用提供了重要参考。InfiniteBench的多样性和专业性使其成为评估长文本处理能力的有效工具。
DS-1000 - 数据科学代码生成基准测试集
Github开源项目Python代码生成数据科学基准测试DS-1000
DS-1000是一个数据科学代码生成基准测试集,包含1000个涵盖Matplotlib、Numpy、Pandas等主流库的数据科学问题。项目提供简化数据格式,支持通过Hugging Face或本地文件加载。DS-1000采用严格的测试方法评估代码正确性,为数据科学代码生成模型提供全面评估标准。
mteb - 多任务文本嵌入模型评估基准
Github开源项目自然语言处理基准测试评估文本嵌入MTEB
MTEB是一个开源的文本嵌入模型评估基准,涵盖多种任务类型和语言。它提供标准化的测试集、灵活的评估配置和公开排行榜。研究人员可以使用MTEB评估自定义模型,添加新任务,并进行模型性能比较,从而推动文本嵌入技术的进步。
BIG-bench - 评估大型语言模型能力的开放基准
Github开源项目语言模型基准测试模型评估BIG-bench任务创建
BIG-bench是一个开放的基准测试项目,致力于评估大型语言模型的能力并预测其未来发展。该项目包含200多个多样化任务,涉及算术、推理等多个领域。研究人员可通过JSON或编程方式贡献新任务,并利用公开模型进行评估。BIG-bench Lite作为24个精选任务的子集,提供了高效的模型性能评估方法。这一平台为深入研究语言模型能力提供了宝贵资源。
jailbreakbench - 大语言模型越狱攻防能力评估基准
Github开源项目AI伦理语言模型基准测试安全性JailbreakBench
JailbreakBench是一个评估大语言模型越狱攻防能力的开源基准。它包含JBB-Behaviors数据集、官方排行榜和越狱字符串存储库,全面追踪越狱攻击和防御进展。研究人员可利用JailbreakBench加载越狱字符串、访问数据集、进行红队测试,以及提交新的攻击和防御方法。该项目为大语言模型安全研究提供了稳定的性能比较平台。
Auto-GPT-Forge - 综合工具包助力开发智能AI代理
Github开源项目用户界面基准测试Auto-GPTAI代理开发模板系统
Auto-GPT-Forge是一个开源的AI代理开发工具集。它提供了基准测试框架、代理模板和前端界面,支持开发者进行性能测试、快速原型开发和用户交互设计。该项目旨在简化AI代理的创建过程,使开发者能够更专注于核心功能的实现。Auto-GPT-Forge为AI创新提供了实用的开发环境,有助于推动智能代理技术的进步。
Auto-GPT-Benchmarks - 自动化智能代理基准测试框架评估代码检索记忆和安全性能
Github开源项目AI代理基准测试性能评估Auto-GPT排名
Auto-GPT-Benchmarks 是一个自动化智能代理基准测试框架,用于客观评估代理在代码、检索、记忆和安全性方面的性能。框架提供详细评分和排名,有助于开发者优化代理性能。尽管该项目已被弃用,其功能已转移至 AutoGPT 主仓库的 benchmark 文件夹。最新测试结果显示 Beebot、mini-agi 和 Auto-GPT 表现最佳。
T-Eval - 分步骤评估大语言模型工具使用能力的基准测试框架
Github开源项目大语言模型基准测试评估工具使用能力T-Eval
T-Eval是一个评估大语言模型工具使用能力的基准测试框架。它将评估过程分解为指令遵循、规划、推理、检索、理解和审查等多个子过程,实现了细粒度分析。该项目提供英文和中文评测数据集、测试脚本和排行榜。T-Eval为研究人员和开发者提供了一个深入分析语言模型工具使用能力的新方法。
js-framework-benchmark - JavaScript框架性能评估基准测试工具
Github开源项目基准测试JavaScript框架性能测试js-framework-benchmarkWeb性能
js-framework-benchmark提供了186种JavaScript框架实现的性能对比。通过创建大型随机数据表并测量渲染、更新、选择等操作的执行时间,以及内存使用和启动时间,该工具能客观评估各框架在不同场景下的性能表现。开发者可借此选择最适合项目需求的高性能框架。
HPSv2 - 文本到图像生成模型评估的全面基准测试框架
Github开源项目基准测试HPS v2图像生成模型人类偏好评分文本到图像合成
HPSv2是一个评估文本到图像生成模型的先进基准测试框架。该框架基于大规模人类偏好数据集HPDv2训练,可准确预测人类对生成图像的偏好。HPSv2提供公平、稳定且易用的评估方法,涵盖动画、概念艺术、绘画和照片四种风格。研究人员可利用HPSv2比较不同模型性能或评估自研模型。项目提供PyPI包和在线演示,便于快速上手使用。
Retrieval-Augmented-Visual-Question-Answering - 细粒度后期交互多模态检索视觉问答系统
Github开源项目预训练模型基准测试视觉问答多模态检索FLMR
这个项目开发了一个基于细粒度后期交互多模态检索的视觉问答系统。系统在OK-VQA等多个基准数据集上实现了先进的检索和问答性能。它采用模块化架构,包含预训练映射网络、FLMR检索器和BLIP2读取器等关键组件。项目提供完整的代码库,支持训练和评估,并发布了预训练模型和处理后的数据集,便于研究人员进行后续研究。
CoT-Reasoning-Survey - 链式思维推理研究综述:最新进展与未来趋势
Github开源项目语言模型基准测试推理能力多模态推理Chain of Thought
本项目全面综述了链式思维推理(Chain of Thought Reasoning)领域的研究现状,包括最新进展、前沿挑战和未来方向。内容涵盖CoT在数学推理、常识推理等领域的应用,以及相关基准测试集。同时分析了CoT的核心机制,如提示工程和多模态推理。对于研究人员和从业者而言,这是了解CoT最新动态的重要参考资源。
ChemLLMBench - 化学领域大语言模型能力评估的全面基准
Github开源项目大语言模型基准测试NeurIPS 2023化学ChemLLMBench
ChemLLMBench是一个评估大语言模型在化学领域能力的全面基准。该项目包含八个化学任务,从分子结构预测到反应产率预测,并提供详细数据集、评估方法和基线模型。ChemLLMBench为研究人员探索大语言模型在化学应用提供重要参考,其研究成果已被NeurIPS 2023数据集与基准赛道接收,彰显学术影响力。
ann-benchmarks - 开源高维近似最近邻搜索算法基准测试平台
Github开源项目性能比较基准测试近邻搜索ANN算法高维空间
ann-benchmarks是一个开源的高维近似最近邻(ANN)搜索算法评估平台。该项目提供预生成数据集、Docker容器和测试套件,支持对多种ANN算法进行客观的基准测试。目前已包含Annoy、FAISS、NMSLIB等主流算法,并通过性能对比结果和可视化图表展示各算法特性。研究人员和工程师可基于此平台选择适合特定场景的ANN算法,推动相关技术的优化和应用。
MMStar - 大型视觉语言模型评估的新标准
人工智能Github开源项目基准测试视觉语言模型MMStar多模态评估
MMStar是一个创新的多模态评估基准,包含1500个精选的视觉关键样本。它解决了现有评估中的视觉冗余和数据泄露问题,提高了多模态性能评估的准确性。MMStar涵盖6大核心能力和18个细分维度,每个核心能力均衡分配250个样本。项目提供评估工具、数据集和在线排行榜,为视觉语言模型研究指明新方向。
ehrshot-benchmark - 电子健康记录基础模型少样本评估基准
Github开源项目基础模型基准测试电子健康记录EHRSHOT少样本评估
EHRSHOT基准包含6,739名患者的完整电子健康记录和15个分类任务,用于评估EHR基础模型的少样本学习能力。项目发布了一个在大规模患者数据上预训练的临床基础模型,并提供相关资源,旨在推动EHR深度学习研究的发展和可重复性。
promptfoo - 本地LLM应用测试与评估工具
Github开源项目LLM应用基准测试测试驱动开发promptfoo自动化红队
提供专业工具集,专为本地测试、评估及红队操作LLM应用设计。支持多种模型和API,确保应用安全可靠,提升评估效率并自动评分输出。适用于CLI、库和CI/CD环境,支持OpenAI、Anthropic等API,完全开源且本地运行,保障数据隐私。