#LLM评估

tonic_validate入门指南 - 评估RAG系统响应质量的强大工具

2 个月前
Cover of tonic_validate入门指南 - 评估RAG系统响应质量的强大工具

continuous-eval学习资源汇总 - 基于数据驱动的LLM应用评估工具

2 个月前
Cover of continuous-eval学习资源汇总 - 基于数据驱动的LLM应用评估工具

EvalPlus:为代码生成大语言模型打造的严格评估框架

2 个月前
Cover of EvalPlus:为代码生成大语言模型打造的严格评估框架

Phoenix: 开源AI可观测性平台

2 个月前
Cover of Phoenix: 开源AI可观测性平台

Evalverse: 革新大型语言模型评估的开源项目

2 个月前
Cover of Evalverse: 革新大型语言模型评估的开源项目

Chain-of-Thought Hub: 测量大语言模型的复杂推理能力

2 个月前
Cover of Chain-of-Thought Hub: 测量大语言模型的复杂推理能力

DeepEval: 开源LLM评估框架的全面解析

3 个月前
Cover of DeepEval: 开源LLM评估框架的全面解析

MixEval: 革新大语言模型评估的动态基准

3 个月前
Cover of MixEval: 革新大语言模型评估的动态基准

OpenAI Evals:评估大型语言模型的开源框架

3 个月前
Cover of OpenAI Evals:评估大型语言模型的开源框架

Tonic Validate: 全面评估和优化RAG应用的强大工具

3 个月前
Cover of Tonic Validate: 全面评估和优化RAG应用的强大工具
相关项目
Project Cover

continuous-eval

continuous-eval是一个开源软件包,旨在为LLM驱动的应用提供全面的数据驱动评估。项目特点包括模块化评估系统,全面的度量指标库,可结合用户反馈进行评估,且支持生成大规模合成数据集以验证应用性能,适用于多种LLM应用场景的定制化评估。

Project Cover

tonic_validate

Tonic Validate是一个开源的高性能LLM输出和RAG评估框架,通过多种度量方法评估输出的精度和稳定性。它还集成了可视化UI,便于结果追踪与监控,并提供了Tonic Textual工具,以支持RAG系统的数据处理和性能提升。

Project Cover

evals

evals是一个开源框架,用于评估大型语言模型(LLM)及其衍生系统。该框架提供评估注册表,支持测试OpenAI模型的多个维度,同时允许用户创建自定义评估。开发者可利用私有数据构建评估,无需公开敏感信息。evals能够帮助开发者深入分析不同模型版本对特定应用场景的影响,对LLM开发过程具有重要价值。

Project Cover

deepeval

DeepEval是一款开源的大型语言模型(LLM)输出评估框架。它提供G-Eval、幻觉检测和答案相关性等多种评估指标,支持本地运行。该框架适用于RAG和微调应用,可与LangChain和LlamaIndex等工具集成。DeepEval具备批量评估、自定义指标创建功能,易于集成到CI/CD环境。此外,它还支持对主流LLM基准进行简易评估,并可与Confident AI平台对接,实现持续评估和结果分析。

Project Cover

MixEval

MixEval是一个动态更新的大语言模型评测基准,结合现有基准和真实用户查询构建而成。该基准在保持高准确度的同时,实现了快速、低成本和可重复的评测。MixEval提供更全面、公平的查询分布,并通过定期更新机制避免数据污染。作为一个高效可靠的评测工具,MixEval适用于各类大语言模型研究和应用场景。

Project Cover

chain-of-thought-hub

Chain-of-Thought Hub汇集了数学、科学、符号推理等多个领域的挑战性任务,旨在全面评估大型语言模型的复杂推理能力。该项目通过精选数据集和模型,为语言模型发展提供可靠参考。同时,它将链式思考提示工程视为新一代系统调用,为基于大型语言模型的应用生态系统发展奠定基础。

Project Cover

evalverse

Evalverse是一个开源的大语言模型评估工具集,提供统一、标准化的评估解决方案。支持多种评估方法,可无代码进行评估并生成报告。通过子模块扩展评估能力,集成lm-evaluation-harness和FastChat等框架。生成的详细报告包含分数、排名和可视化,便于比较不同模型性能。适用于AI研究人员及LLM领域新手。

Project Cover

phoenix

Phoenix是一款开源AI观测平台,为大语言模型应用提供全面的跟踪、评估和实验功能。该平台集成了OpenTelemetry跟踪、LLM性能测试、数据集管理、实验记录和推理分析等特性。Phoenix支持主流AI框架和LLM服务,适用于本地和云端环境,为AI开发人员提供了强大的实验、评估和问题诊断能力。

Project Cover

EvalsOne

EvalsOne是一个面向生成式AI应用的综合评估平台。它集成了多样化的评估工具,支持LLM提示词优化、RAG流程改进和AI代理性能评估。平台简化了LLMOps流程,适用于AI应用的全生命周期。EvalsOne兼容多种模型,包括主流大模型和云端部署方案。平台提供即用型评估器,并支持自定义扩展,满足各类复杂场景需求。借助EvalsOne,开发者可以轻松进行评估实验、样本准备和深度分析,从而不断优化AI驱动的产品。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号