#评估框架

AgentBench入门学习资料汇总 - 首个系统评估LLM作为Agent的基准测试

2 个月前

AgentBench LLM-as-Agent 评估框架测试结果任务设置 Github 开源项目

2 个月前

ragas学习资料汇总 - 用于评估RAG管道的开源框架

2 个月前

LLM 评估框架性能监控 Github 开源项目 Ragas RAG

2 个月前

RefChecker: 一个用于检测大型语言模型幻觉的新工具与数据集

2 个月前

RefChecker 大语言模型幻觉检测评估框架事实性 Github 开源项目

2 个月前

Vec4IR: 面向信息检索的词嵌入框架

3 个月前

Vec4IR 信息检索词嵌入评估框架相似度计算 Github 开源项目

3 个月前

推荐系统算法开发与测试利器: R语言recommenderlab包详解

3 个月前

TFB: 全面公平的时间序列预测基准测试工具

3 个月前

TFB 时序预测基准测试开源库评估框架 Github 开源项目

3 个月前

LMMS-Eval: 加速大型多模态模型的评估与发展

3 个月前

LMMs-eval 多模态模型评估框架 AI基准测试开源项目 Github

3 个月前

BigCode评估工具集:一个用于自回归代码生成语言模型评估的强大框架

3 个月前

代码生成评估框架模型评估多语言支持 BigCode Github 开源项目

3 个月前

EvalScope: 一个简化高效的大型模型评估与性能基准测试框架

3 个月前

EvalScope 大语言模型评估框架模型集成可视化 Github 开源项目

3 个月前

Codec-SUPERB:一个全面评估音频编解码模型的创新基准测试平台

3 个月前

Codec-SUPERB 语音处理性能基准音频编解码评估框架 Github 开源项目

3 个月前

相关项目

ragas

Ragas是一款工具集，用于评估、监控和优化RAG（检索增强生成）应用的性能，特别适合生产环境中的大语言模型（LLM）。Ragas集成了最新研究成果，能在CI/CD流程中进行持续检查，确保管道性能稳定。通过简单的安装和快速入门示例，用户可以快速体验Ragas的功能，并参与社区讨论LLM和生产相关问题。

AgentBench

AgentBench是首个评估大型语言模型（LLM）作为自主代理的基准，涵盖操作系统、数据库、知识图谱等8个不同环境。该项目通过多任务设置和完整的数据集，深入分析LLM的实际应用能力。新版AgentBench v0.2优化了框架结构，并增加了更多模型的测试结果，方便开发者扩展和使用。

evals

evals是一个开源框架，用于评估大型语言模型(LLM)及其衍生系统。该框架提供评估注册表，支持测试OpenAI模型的多个维度，同时允许用户创建自定义评估。开发者可利用私有数据构建评估，无需公开敏感信息。evals能够帮助开发者深入分析不同模型版本对特定应用场景的影响，对LLM开发过程具有重要价值。

Codec-SUPERB

Codec-SUPERB是一个综合性音频编解码模型评估平台，提供标准化测试环境和统一数据集。平台特色包括直观的编解码接口、多角度评估和在线排行榜。它旨在促进语音处理领域的发展，为研究人员提供便捷的模型集成和测试环境，支持快速迭代和实验。

evalscope

EvalScope是一个全面的大语言模型评估框架，集成了多种基准数据集和评估指标。该框架提供模型集成、自动评估和报告生成功能，并支持Arena模式和可视化分析。通过整合OpenCompass和VLMEvalKit评估后端，EvalScope实现了多模态评估能力。此外，它能与ModelScope SWIFT平台无缝对接，支持大模型的端到端开发流程。

bigcode-evaluation-harness

bigcode-evaluation-harness是一个评估代码生成模型的开源框架。它支持多种编程语言和任务,如代码补全、插入和翻译。该框架兼容Hugging Face上的自回归模型,具备多GPU生成能力,并可在Docker容器中运行以保证安全性和可重复性。框架集成了HumanEval、APPS等多个代码生成基准,为研究人员和开发者提供了全面评估代码模型性能的工具。

lmms-eval

lmms-eval是专为大规模多模态模型(LMMs)设计的评估框架,整合多种基准和数据集,提供一致高效的评估方法。支持图像、视频等多模态任务,简化评估流程,加速模型开发和性能比较。该框架为研究人员提供灵活工具,助力理解和改进LMMs能力,推动人工智能向通用人工智能(AGI)发展。lmms-eval旨在成为加速LMMs发展的重要生态系统组件。

TFB

TFB是一个为时间序列预测研究设计的开源库。它提供清晰的代码库，支持对预测模型进行端到端评估，并通过多种策略和指标比较模型性能。TFB特点包括多样化数据集、全面基线模型、灵活评估策略和丰富评估指标。研究人员可利用TFB开发新方法或评估自有时间序列数据。

recommenderlab

recommenderlab是一个用于开发和评估推荐系统的R语言框架。它支持用户-物品矩阵的稀疏表示，提供多种主流推荐算法，包括UBCF、IBCF、SVD、Funk SVD、ALS等。框架具备Top-N推荐、交叉验证、评分和二元数据处理等功能。recommenderlab还提供了训练/测试分割、MSE、RMSE、MAE等多种评估方法和指标，适用于电商、内容推荐等多个领域，为推荐系统研究和开发提供了全面的工具支持。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com