#LLM评估

continuous-eval - 优化LLM应用的数据驱动评估工具
Github开源项目开源数据驱动continuous-evalLLM评估评估指标
continuous-eval是一个开源软件包,旨在为LLM驱动的应用提供全面的数据驱动评估。项目特点包括模块化评估系统,全面的度量指标库,可结合用户反馈进行评估,且支持生成大规模合成数据集以验证应用性能,适用于多种LLM应用场景的定制化评估。
tonic_validate - LLM和RAG评估框架
Github开源项目数据安全LLM评估Tonic ValidateRAG系统性能监测
Tonic Validate是一个开源的高性能LLM输出和RAG评估框架,通过多种度量方法评估输出的精度和稳定性。它还集成了可视化UI,便于结果追踪与监控,并提供了Tonic Textual工具,以支持RAG系统的数据处理和性能提升。
evals - 开源框架助力大型语言模型性能评估
Github开源项目API密钥评估框架LLM评估OpenAI EvalsGit-LFS
evals是一个开源框架,用于评估大型语言模型(LLM)及其衍生系统。该框架提供评估注册表,支持测试OpenAI模型的多个维度,同时允许用户创建自定义评估。开发者可利用私有数据构建评估,无需公开敏感信息。evals能够帮助开发者深入分析不同模型版本对特定应用场景的影响,对LLM开发过程具有重要价值。
deepeval - 简化LLM输出评估的开源框架
Github开源项目开源框架LLM评估DeepEvalAI测试指标评估
DeepEval是一款开源的大型语言模型(LLM)输出评估框架。它提供G-Eval、幻觉检测和答案相关性等多种评估指标,支持本地运行。该框架适用于RAG和微调应用,可与LangChain和LlamaIndex等工具集成。DeepEval具备批量评估、自定义指标创建功能,易于集成到CI/CD环境。此外,它还支持对主流LLM基准进行简易评估,并可与Confident AI平台对接,实现持续评估和结果分析。
MixEval - 动态更新的大语言模型评测基准
Github开源项目模型排名基准测试LLM评估MixEval动态评估
MixEval是一个动态更新的大语言模型评测基准,结合现有基准和真实用户查询构建而成。该基准在保持高准确度的同时,实现了快速、低成本和可重复的评测。MixEval提供更全面、公平的查询分布,并通过定期更新机制避免数据污染。作为一个高效可靠的评测工具,MixEval适用于各类大语言模型研究和应用场景。
chain-of-thought-hub - 大型语言模型复杂推理能力评估基准
Github开源项目大语言模型长文本处理LLM评估Chain-of-Thought复杂推理能力
Chain-of-Thought Hub汇集了数学、科学、符号推理等多个领域的挑战性任务,旨在全面评估大型语言模型的复杂推理能力。该项目通过精选数据集和模型,为语言模型发展提供可靠参考。同时,它将链式思考提示工程视为新一代系统调用,为基于大型语言模型的应用生态系统发展奠定基础。
evalverse - 开源大语言模型评估工具集
Github开源项目AI研究LLM评估Evalverse评估报告
Evalverse是一个开源的大语言模型评估工具集,提供统一、标准化的评估解决方案。支持多种评估方法,可无代码进行评估并生成报告。通过子模块扩展评估能力,集成lm-evaluation-harness和FastChat等框架。生成的详细报告包含分数、排名和可视化,便于比较不同模型性能。适用于AI研究人员及LLM领域新手。
phoenix - AI应用开发的全方位观测与评估工具
Github开源项目数据可视化LLM评估PhoenixAI观察平台
Phoenix是一款开源AI观测平台,为大语言模型应用提供全面的跟踪、评估和实验功能。该平台集成了OpenTelemetry跟踪、LLM性能测试、数据集管理、实验记录和推理分析等特性。Phoenix支持主流AI框架和LLM服务,适用于本地和云端环境,为AI开发人员提供了强大的实验、评估和问题诊断能力。
EvalsOne - 全面高效的生成式AI应用评估工具
AI工具GenAILLM评估模型集成EvalsOneAI应用优化
EvalsOne是一个面向生成式AI应用的综合评估平台。它集成了多样化的评估工具,支持LLM提示词优化、RAG流程改进和AI代理性能评估。平台简化了LLMOps流程,适用于AI应用的全生命周期。EvalsOne兼容多种模型,包括主流大模型和云端部署方案。平台提供即用型评估器,并支持自定义扩展,满足各类复杂场景需求。借助EvalsOne,开发者可以轻松进行评估实验、样本准备和深度分析,从而不断优化AI驱动的产品。
Arize AI - 全面AI模型观测与评估平台 提升开发效率
AI工具AI开发模型监控LLM评估AI ObservabilityArize
Arize AI平台专注AI观测和LLM评估,为AI工程师提供全面开发部署方案。主要功能包括性能跟踪、数据集管理、提示词优化、自动化监控和智能搜索,有效提升模型速度和AI结果。作为云原生平台,支持灵活部署并符合安全合规标准,助力用户高效追踪、评估和迭代AI模型,快速发现并解决问题。
Athina AI - 全栈AI应用开发与管理平台
AI应用开发AI工具LLM评估Athina实验原型生产监控
Athina AI为团队提供AI应用开发和管理平台,10倍加速AI功能生产部署。其IDE工具支持快速实验、原型设计和评估,具备多模型比较、数据集管理和动态列转换功能,显著提升AI应用开发效率。平台提供企业级控制,包括自托管部署、角色访问控制和多工作区,保障数据安全。适用于各规模团队,从初创公司到大型企业,帮助快速实现AI功能落地。
Algomax - 专业评估大型语言模型和检索增强生成模型的智能平台
AI模型优化AI工具LLM评估RAG模型Algomax质量指标
Algomax为大型语言模型(LLM)和检索增强生成(RAG)模型提供专业评估服务。平台集成精确评估引擎、深度分析和全面指标,简化评估流程,优化模型开发。支持无缝接入现有系统,通过直观界面呈现全面洞察。广泛应用于客户服务、文档处理、报告生成等领域,助力模型性能提升和AI应用持续优化。
Algomax - 高效的大型语言模型和检索增强生成评估平台
实验跟踪AI工具LLM评估AI评估RAG模型质量指标
Algomax平台专注于大型语言模型(LLM)和检索增强生成(RAG)模型的评估。通过精确评估引擎、深入洞察分析和全面指标体系,简化模型评估流程,优化提示词开发,加快整体开发进度。平台可轻松集成现有系统,提供直观的质性分析仪表盘,适用于客户服务、文档摘要和报告生成等多个领域。
evalplus - 提升大语言模型代码生成评估的框架
Github开源项目代码生成LLM评估EvalPlusHumanEval+MBPP+
EvalPlus是一个开源框架,旨在严格评估大语言模型的代码生成能力。它包含HumanEval+和MBPP+两个增强数据集,测试用例数量大幅提升。该框架提供精确评估、代码严谨性检验、LLM生成样本等功能,可显著加速相关研究。EvalPlus支持代码生成、后处理和评估全流程,在GitHub开源并提供Docker镜像,便于研究人员使用。
PairRM - LLM质量提升的Pairwise奖励模型
Github开源项目模型HuggingfaceLLM评估高效解码RLHF方法Pairwise Reward Model相对质量
Pairwise Reward Model通过比较一对候选输出对每个候选分配质量评分。该模型可用于有效评估LLM质量,通过对候选输出重新排序,增强LLM输出效果,并支持RLHF方法的指令调整。模型基于microsoft/deberta-v3-large,利用多样化的人类偏好数据集进行训练,性能接近GPT-4,在有限资源下实现高效对齐和质量提升。