#LLM评估

tonic_validate入门指南 - 评估RAG系统响应质量的强大工具

2 个月前

Tonic Validate LLM评估数据安全 RAG系统性能监测 Github 开源项目

2 个月前

continuous-eval学习资源汇总 - 基于数据驱动的LLM应用评估工具

2 个月前

continuous-eval LLM评估开源数据驱动评估指标 Github 开源项目

2 个月前

EvalPlus：为代码生成大语言模型打造的严格评估框架

2 个月前

EvalPlus LLM评估代码生成 HumanEval+MBPP+Github 开源项目

2 个月前

Phoenix: 开源AI可观测性平台

2 个月前

Phoenix AI观察平台 LLM评估开源项目数据可视化 Github

2 个月前

Evalverse: 革新大型语言模型评估的开源项目

2 个月前

Evalverse LLM评估开源项目评估报告 AI研究 Github

2 个月前

Chain-of-Thought Hub: 测量大语言模型的复杂推理能力

2 个月前

复杂推理能力大语言模型 Chain-of-Thought LLM评估长文本处理 Github 开源项目

2 个月前

DeepEval: 开源LLM评估框架的全面解析

3 个月前

DeepEval LLM评估开源框架 AI测试指标评估 Github 开源项目

3 个月前

MixEval: 革新大语言模型评估的动态基准

3 个月前

MixEval LLM评估基准测试动态评估模型排名 Github 开源项目

3 个月前

OpenAI Evals：评估大型语言模型的开源框架

3 个月前

OpenAI Evals LLM评估 API密钥评估框架 Git-LFS Github 开源项目

3 个月前

Tonic Validate: 全面评估和优化RAG应用的强大工具

3 个月前

Tonic Validate LLM评估数据安全 RAG系统性能监测 Github 开源项目

3 个月前

相关项目

continuous-eval

continuous-eval是一个开源软件包，旨在为LLM驱动的应用提供全面的数据驱动评估。项目特点包括模块化评估系统，全面的度量指标库，可结合用户反馈进行评估，且支持生成大规模合成数据集以验证应用性能，适用于多种LLM应用场景的定制化评估。

tonic_validate

Tonic Validate是一个开源的高性能LLM输出和RAG评估框架，通过多种度量方法评估输出的精度和稳定性。它还集成了可视化UI，便于结果追踪与监控，并提供了Tonic Textual工具，以支持RAG系统的数据处理和性能提升。

evals

evals是一个开源框架，用于评估大型语言模型(LLM)及其衍生系统。该框架提供评估注册表，支持测试OpenAI模型的多个维度，同时允许用户创建自定义评估。开发者可利用私有数据构建评估，无需公开敏感信息。evals能够帮助开发者深入分析不同模型版本对特定应用场景的影响，对LLM开发过程具有重要价值。

deepeval

DeepEval是一款开源的大型语言模型(LLM)输出评估框架。它提供G-Eval、幻觉检测和答案相关性等多种评估指标，支持本地运行。该框架适用于RAG和微调应用，可与LangChain和LlamaIndex等工具集成。DeepEval具备批量评估、自定义指标创建功能，易于集成到CI/CD环境。此外，它还支持对主流LLM基准进行简易评估，并可与Confident AI平台对接，实现持续评估和结果分析。

MixEval

MixEval是一个动态更新的大语言模型评测基准，结合现有基准和真实用户查询构建而成。该基准在保持高准确度的同时，实现了快速、低成本和可重复的评测。MixEval提供更全面、公平的查询分布，并通过定期更新机制避免数据污染。作为一个高效可靠的评测工具，MixEval适用于各类大语言模型研究和应用场景。

chain-of-thought-hub

Chain-of-Thought Hub汇集了数学、科学、符号推理等多个领域的挑战性任务，旨在全面评估大型语言模型的复杂推理能力。该项目通过精选数据集和模型，为语言模型发展提供可靠参考。同时，它将链式思考提示工程视为新一代系统调用，为基于大型语言模型的应用生态系统发展奠定基础。

evalverse

Evalverse是一个开源的大语言模型评估工具集，提供统一、标准化的评估解决方案。支持多种评估方法，可无代码进行评估并生成报告。通过子模块扩展评估能力，集成lm-evaluation-harness和FastChat等框架。生成的详细报告包含分数、排名和可视化，便于比较不同模型性能。适用于AI研究人员及LLM领域新手。

phoenix

Phoenix是一款开源AI观测平台，为大语言模型应用提供全面的跟踪、评估和实验功能。该平台集成了OpenTelemetry跟踪、LLM性能测试、数据集管理、实验记录和推理分析等特性。Phoenix支持主流AI框架和LLM服务，适用于本地和云端环境，为AI开发人员提供了强大的实验、评估和问题诊断能力。

EvalsOne

EvalsOne是一个面向生成式AI应用的综合评估平台。它集成了多样化的评估工具，支持LLM提示词优化、RAG流程改进和AI代理性能评估。平台简化了LLMOps流程，适用于AI应用的全生命周期。EvalsOne兼容多种模型，包括主流大模型和云端部署方案。平台提供即用型评估器，并支持自定义扩展，满足各类复杂场景需求。借助EvalsOne，开发者可以轻松进行评估实验、样本准备和深度分析，从而不断优化AI驱动的产品。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com