#LLM评估

continuous-eval - 优化LLM应用的数据驱动评估工具

Github开源项目开源数据驱动continuous-evalLLM评估评估指标

continuous-eval是一个开源软件包，旨在为LLM驱动的应用提供全面的数据驱动评估。项目特点包括模块化评估系统，全面的度量指标库，可结合用户反馈进行评估，且支持生成大规模合成数据集以验证应用性能，适用于多种LLM应用场景的定制化评估。

tonic_validate - LLM和RAG评估框架

Github开源项目数据安全LLM评估Tonic ValidateRAG系统性能监测

Tonic Validate是一个开源的高性能LLM输出和RAG评估框架，通过多种度量方法评估输出的精度和稳定性。它还集成了可视化UI，便于结果追踪与监控，并提供了Tonic Textual工具，以支持RAG系统的数据处理和性能提升。

evals - 开源框架助力大型语言模型性能评估

Github开源项目API密钥评估框架LLM评估OpenAI EvalsGit-LFS

evals是一个开源框架，用于评估大型语言模型(LLM)及其衍生系统。该框架提供评估注册表，支持测试OpenAI模型的多个维度，同时允许用户创建自定义评估。开发者可利用私有数据构建评估，无需公开敏感信息。evals能够帮助开发者深入分析不同模型版本对特定应用场景的影响，对LLM开发过程具有重要价值。

deepeval - 简化LLM输出评估的开源框架

Github开源项目开源框架LLM评估DeepEvalAI测试指标评估

DeepEval是一款开源的大型语言模型(LLM)输出评估框架。它提供G-Eval、幻觉检测和答案相关性等多种评估指标，支持本地运行。该框架适用于RAG和微调应用，可与LangChain和LlamaIndex等工具集成。DeepEval具备批量评估、自定义指标创建功能，易于集成到CI/CD环境。此外，它还支持对主流LLM基准进行简易评估，并可与Confident AI平台对接，实现持续评估和结果分析。

MixEval - 动态更新的大语言模型评测基准

Github开源项目模型排名基准测试LLM评估MixEval动态评估

MixEval是一个动态更新的大语言模型评测基准，结合现有基准和真实用户查询构建而成。该基准在保持高准确度的同时，实现了快速、低成本和可重复的评测。MixEval提供更全面、公平的查询分布，并通过定期更新机制避免数据污染。作为一个高效可靠的评测工具，MixEval适用于各类大语言模型研究和应用场景。

chain-of-thought-hub - 大型语言模型复杂推理能力评估基准

Github开源项目大语言模型长文本处理LLM评估Chain-of-Thought复杂推理能力

Chain-of-Thought Hub汇集了数学、科学、符号推理等多个领域的挑战性任务，旨在全面评估大型语言模型的复杂推理能力。该项目通过精选数据集和模型，为语言模型发展提供可靠参考。同时，它将链式思考提示工程视为新一代系统调用，为基于大型语言模型的应用生态系统发展奠定基础。

evalverse - 开源大语言模型评估工具集

Github开源项目AI研究LLM评估Evalverse评估报告

Evalverse是一个开源的大语言模型评估工具集，提供统一、标准化的评估解决方案。支持多种评估方法，可无代码进行评估并生成报告。通过子模块扩展评估能力，集成lm-evaluation-harness和FastChat等框架。生成的详细报告包含分数、排名和可视化，便于比较不同模型性能。适用于AI研究人员及LLM领域新手。

phoenix - AI应用开发的全方位观测与评估工具

Github开源项目数据可视化LLM评估PhoenixAI观察平台

Phoenix是一款开源AI观测平台，为大语言模型应用提供全面的跟踪、评估和实验功能。该平台集成了OpenTelemetry跟踪、LLM性能测试、数据集管理、实验记录和推理分析等特性。Phoenix支持主流AI框架和LLM服务，适用于本地和云端环境，为AI开发人员提供了强大的实验、评估和问题诊断能力。

EvalsOne - 全面高效的生成式AI应用评估工具

AI工具GenAILLM评估模型集成EvalsOneAI应用优化

EvalsOne是一个面向生成式AI应用的综合评估平台。它集成了多样化的评估工具，支持LLM提示词优化、RAG流程改进和AI代理性能评估。平台简化了LLMOps流程，适用于AI应用的全生命周期。EvalsOne兼容多种模型，包括主流大模型和云端部署方案。平台提供即用型评估器，并支持自定义扩展，满足各类复杂场景需求。借助EvalsOne，开发者可以轻松进行评估实验、样本准备和深度分析，从而不断优化AI驱动的产品。

Arize AI - 全面AI模型观测与评估平台提升开发效率

AI工具AI开发模型监控LLM评估AI ObservabilityArize

Arize AI平台专注AI观测和LLM评估，为AI工程师提供全面开发部署方案。主要功能包括性能跟踪、数据集管理、提示词优化、自动化监控和智能搜索，有效提升模型速度和AI结果。作为云原生平台，支持灵活部署并符合安全合规标准，助力用户高效追踪、评估和迭代AI模型，快速发现并解决问题。

Athina AI - 全栈AI应用开发与管理平台

AI应用开发AI工具LLM评估Athina实验原型生产监控

Athina AI为团队提供AI应用开发和管理平台，10倍加速AI功能生产部署。其IDE工具支持快速实验、原型设计和评估，具备多模型比较、数据集管理和动态列转换功能，显著提升AI应用开发效率。平台提供企业级控制，包括自托管部署、角色访问控制和多工作区，保障数据安全。适用于各规模团队，从初创公司到大型企业，帮助快速实现AI功能落地。

Algomax - 专业评估大型语言模型和检索增强生成模型的智能平台

AI模型优化AI工具LLM评估RAG模型Algomax质量指标

Algomax为大型语言模型(LLM)和检索增强生成(RAG)模型提供专业评估服务。平台集成精确评估引擎、深度分析和全面指标，简化评估流程，优化模型开发。支持无缝接入现有系统，通过直观界面呈现全面洞察。广泛应用于客户服务、文档处理、报告生成等领域，助力模型性能提升和AI应用持续优化。

Algomax - 高效的大型语言模型和检索增强生成评估平台

实验跟踪AI工具LLM评估AI评估RAG模型质量指标

Algomax平台专注于大型语言模型(LLM)和检索增强生成(RAG)模型的评估。通过精确评估引擎、深入洞察分析和全面指标体系,简化模型评估流程,优化提示词开发,加快整体开发进度。平台可轻松集成现有系统,提供直观的质性分析仪表盘,适用于客户服务、文档摘要和报告生成等多个领域。

evalplus - 提升大语言模型代码生成评估的框架

Github开源项目代码生成LLM评估EvalPlusHumanEval+MBPP+

EvalPlus是一个开源框架,旨在严格评估大语言模型的代码生成能力。它包含HumanEval+和MBPP+两个增强数据集,测试用例数量大幅提升。该框架提供精确评估、代码严谨性检验、LLM生成样本等功能,可显著加速相关研究。EvalPlus支持代码生成、后处理和评估全流程,在GitHub开源并提供Docker镜像,便于研究人员使用。

PairRM - LLM质量提升的Pairwise奖励模型

Github开源项目模型HuggingfaceLLM评估高效解码RLHF方法Pairwise Reward Model相对质量

Pairwise Reward Model通过比较一对候选输出对每个候选分配质量评分。该模型可用于有效评估LLM质量，通过对候选输出重新排序，增强LLM输出效果，并支持RLHF方法的指令调整。模型基于microsoft/deberta-v3-large，利用多样化的人类偏好数据集进行训练，性能接近GPT-4，在有限资源下实现高效对齐和质量提升。

相关文章

Article Cover

Continuous-Eval: 数据驱动的LLM应用评估框架

Article Cover

Tonic Validate: 全面评估和优化RAG应用的强大工具

Article Cover

OpenAI Evals：评估大型语言模型的开源框架

Article Cover

MixEval: 革新大语言模型评估的动态基准

Article Cover

DeepEval: 开源LLM评估框架的全面解析

Article Cover

Chain-of-Thought Hub: 测量大语言模型的复杂推理能力

Article Cover

Evalverse: 革新大型语言模型评估的开源项目

Article Cover

Phoenix: 开源AI可观测性平台

Article Cover

EvalPlus：为代码生成大语言模型打造的严格评估框架

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号