#评估框架

ragas - 高效评估与优化RAG管道性能的框架

LLM评估框架性能监控Github开源项目RagasRAG

Ragas是一款工具集，用于评估、监控和优化RAG（检索增强生成）应用的性能，特别适合生产环境中的大语言模型（LLM）。Ragas集成了最新研究成果，能在CI/CD流程中进行持续检查，确保管道性能稳定。通过简单的安装和快速入门示例，用户可以快速体验Ragas的功能，并参与社区讨论LLM和生产相关问题。

AgentBench - 全面评估大型语言模型在多环境下的自主代理能力

AgentBenchLLM-as-Agent评估框架测试结果任务设置Github开源项目

AgentBench是首个评估大型语言模型（LLM）作为自主代理的基准，涵盖操作系统、数据库、知识图谱等8个不同环境。该项目通过多任务设置和完整的数据集，深入分析LLM的实际应用能力。新版AgentBench v0.2优化了框架结构，并增加了更多模型的测试结果，方便开发者扩展和使用。

evals - 开源框架助力大型语言模型性能评估

OpenAI EvalsLLM评估API密钥评估框架Git-LFSGithub开源项目

evals是一个开源框架，用于评估大型语言模型(LLM)及其衍生系统。该框架提供评估注册表，支持测试OpenAI模型的多个维度，同时允许用户创建自定义评估。开发者可利用私有数据构建评估，无需公开敏感信息。evals能够帮助开发者深入分析不同模型版本对特定应用场景的影响，对LLM开发过程具有重要价值。

Codec-SUPERB - 音频编解码模型性能评估基准平台

Codec-SUPERB语音处理性能基准音频编解码评估框架Github开源项目

Codec-SUPERB是一个综合性音频编解码模型评估平台，提供标准化测试环境和统一数据集。平台特色包括直观的编解码接口、多角度评估和在线排行榜。它旨在促进语音处理领域的发展，为研究人员提供便捷的模型集成和测试环境，支持快速迭代和实验。

evalscope - 综合性大语言模型评估开源工具

EvalScope大语言模型评估框架模型集成可视化Github开源项目

EvalScope是一个全面的大语言模型评估框架，集成了多种基准数据集和评估指标。该框架提供模型集成、自动评估和报告生成功能，并支持Arena模式和可视化分析。通过整合OpenCompass和VLMEvalKit评估后端，EvalScope实现了多模态评估能力。此外，它能与ModelScope SWIFT平台无缝对接，支持大模型的端到端开发流程。

bigcode-evaluation-harness - 开源代码生成模型评估框架

代码生成评估框架模型评估多语言支持BigCodeGithub开源项目

bigcode-evaluation-harness是一个评估代码生成模型的开源框架。它支持多种编程语言和任务,如代码补全、插入和翻译。该框架兼容Hugging Face上的自回归模型,具备多GPU生成能力,并可在Docker容器中运行以保证安全性和可重复性。框架集成了HumanEval、APPS等多个代码生成基准,为研究人员和开发者提供了全面评估代码模型性能的工具。

lmms-eval - 大规模多模态模型评估框架加速AI发展

LMMs-eval多模态模型评估框架AI基准测试开源项目Github

lmms-eval是专为大规模多模态模型(LMMs)设计的评估框架,整合多种基准和数据集,提供一致高效的评估方法。支持图像、视频等多模态任务,简化评估流程,加速模型开发和性能比较。该框架为研究人员提供灵活工具,助力理解和改进LMMs能力,推动人工智能向通用人工智能(AGI)发展。lmms-eval旨在成为加速LMMs发展的重要生态系统组件。

TFB - 时间序列预测评估框架

TFB时序预测基准测试开源库评估框架Github开源项目

TFB是一个为时间序列预测研究设计的开源库。它提供清晰的代码库，支持对预测模型进行端到端评估，并通过多种策略和指标比较模型性能。TFB特点包括多样化数据集、全面基线模型、灵活评估策略和丰富评估指标。研究人员可利用TFB开发新方法或评估自有时间序列数据。

recommenderlab - R语言推荐系统开发与评估框架

recommenderlab推荐系统R包协同过滤评估框架Github开源项目

recommenderlab是一个用于开发和评估推荐系统的R语言框架。它支持用户-物品矩阵的稀疏表示，提供多种主流推荐算法，包括UBCF、IBCF、SVD、Funk SVD、ALS等。框架具备Top-N推荐、交叉验证、评分和二元数据处理等功能。recommenderlab还提供了训练/测试分割、MSE、RMSE、MAE等多种评估方法和指标，适用于电商、内容推荐等多个领域，为推荐系统研究和开发提供了全面的工具支持。

vec4ir - 基于词嵌入的开源信息检索框架

Vec4IR信息检索词嵌入评估框架相似度计算Github开源项目

Vec4IR是一个开源的信息检索框架,专注于实际应用场景。它原生支持词嵌入技术,与gensim无缝集成。框架提供内置评估功能,API设计参考sklearn,便于扩展新模型。核心组件包括匹配和相似度评分,还支持查询扩展等高级特性。Vec4IR适合研究人员评估检索模型,也可帮助数据科学家选择最佳方案。框架核心功能包括文档匹配和相似度评分。它还提供查询扩展、伪相关反馈等高级特性,可满足复杂的检索需求。Vec4IR采用模块化设计,便于研究人员快速实现和评估新的检索算法。对于数据科学家,该框架也是比较不同检索模型性能的理想工具。

RefChecker - 针对大语言模型输出的精细化幻觉检测框架

RefChecker大语言模型幻觉检测评估框架事实性Github开源项目

RefChecker是一个标准化评估框架，用于检测大语言模型(LLM)输出中的细微幻觉。该框架将LLM响应分解为知识三元组，在三种不同背景下进行精细化幻觉检测。项目包括人工标注的基准数据集、模块化架构和自动化检查器，有助于评估和改进LLM输出的事实准确性。RefChecker为研究人员和开发者提供了评估和提高LLM生成内容可靠性的工具。

相关文章

Article Cover

Ragas: 评估和优化RAG系统的强大框架

Article Cover

AgentBench: 评估大语言模型作为智能体的全面基准测试

Article Cover

OpenAI Evals：评估大型语言模型的开源框架

Article Cover

Codec-SUPERB:一个全面评估音频编解码模型的创新基准测试平台

Article Cover

EvalScope: 一个简化高效的大型模型评估与性能基准测试框架

Article Cover

BigCode评估工具集:一个用于自回归代码生成语言模型评估的强大框架

Article Cover

LMMS-Eval: 加速大型多模态模型的评估与发展

Article Cover

TFB: 全面公平的时间序列预测基准测试工具

Article Cover

推荐系统算法开发与测试利器: R语言recommenderlab包详解

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号