#评估框架
ragas - 高效评估与优化RAG管道性能的框架
LLM评估框架性能监控Github开源项目RagasRAG
Ragas是一款工具集,用于评估、监控和优化RAG(检索增强生成)应用的性能,特别适合生产环境中的大语言模型(LLM)。Ragas集成了最新研究成果,能在CI/CD流程中进行持续检查,确保管道性能稳定。通过简单的安装和快速入门示例,用户可以快速体验Ragas的功能,并参与社区讨论LLM和生产相关问题。
AgentBench - 全面评估大型语言模型在多环境下的自主代理能力
AgentBenchLLM-as-Agent评估框架测试结果任务设置Github开源项目
AgentBench是首个评估大型语言模型(LLM)作为自主代理的基准,涵盖操作系统、数据库、知识图谱等8个不同环境。该项目通过多任务设置和完整的数据集,深入分析LLM的实际应用能力。新版AgentBench v0.2优化了框架结构,并增加了更多模型的测试结果,方便开发者扩展和使用。
evals - 开源框架助力大型语言模型性能评估
OpenAI EvalsLLM评估API密钥评估框架Git-LFSGithub开源项目
evals是一个开源框架,用于评估大型语言模型(LLM)及其衍生系统。该框架提供评估注册表,支持测试OpenAI模型的多个维度,同时允许用户创建自定义评估。开发者可利用私有数据构建评估,无需公开敏感信息。evals能够帮助开发者深入分析不同模型版本对特定应用场景的影响,对LLM开发过程具有重要价值。
Codec-SUPERB - 音频编解码模型性能评估基准平台
Codec-SUPERB语音处理性能基准音频编解码评估框架Github开源项目
Codec-SUPERB是一个综合性音频编解码模型评估平台,提供标准化测试环境和统一数据集。平台特色包括直观的编解码接口、多角度评估和在线排行榜。它旨在促进语音处理领域的发展,为研究人员提供便捷的模型集成和测试环境,支持快速迭代和实验。
evalscope - 综合性大语言模型评估开源工具
EvalScope大语言模型评估框架模型集成可视化Github开源项目
EvalScope是一个全面的大语言模型评估框架,集成了多种基准数据集和评估指标。该框架提供模型集成、自动评估和报告生成功能,并支持Arena模式和可视化分析。通过整合OpenCompass和VLMEvalKit评估后端,EvalScope实现了多模态评估能力。此外,它能与ModelScope SWIFT平台无缝对接,支持大模型的端到端开发流程。
bigcode-evaluation-harness - 开源代码生成模型评估框架
代码生成评估框架模型评估多语言支持BigCodeGithub开源项目
bigcode-evaluation-harness是一个评估代码生成模型的开源框架。它支持多种编程语言和任务,如代码补全、插入和翻译。该框架兼容Hugging Face上的自回归模型,具备多GPU生成能力,并可在Docker容器中运行以保证安全性和可重复性。框架集成了HumanEval、APPS等多个代码生成基准,为研究人员和开发者提供了全面评估代码模型性能的工具。
lmms-eval - 大规模多模态模型评估框架加速AI发展
LMMs-eval多模态模型评估框架AI基准测试开源项目Github
lmms-eval是专为大规模多模态模型(LMMs)设计的评估框架,整合多种基准和数据集,提供一致高效的评估方法。支持图像、视频等多模态任务,简化评估流程,加速模型开发和性能比较。该框架为研究人员提供灵活工具,助力理解和改进LMMs能力,推动人工智能向通用人工智能(AGI)发展。lmms-eval旨在成为加速LMMs发展的重要生态系统组件。
TFB - 时间序列预测评估框架
TFB时序预测基准测试开源库评估框架Github开源项目
TFB是一个为时间序列预测研究设计的开源库。它提供清晰的代码库,支持对预测模型进行端到端评估,并通过多种策略和指标比较模型性能。TFB特点包括多样化数据集、全面基线模型、灵活评估策略和丰富评估指标。研究人员可利用TFB开发新方法或评估自有时间序列数据。
recommenderlab - R语言推荐系统开发与评估框架
recommenderlab推荐系统R包协同过滤评估框架Github开源项目
recommenderlab是一个用于开发和评估推荐系统的R语言框架。它支持用户-物品矩阵的稀疏表示,提供多种主流推荐算法,包括UBCF、IBCF、SVD、Funk SVD、ALS等。框架具备Top-N推荐、交叉验证、评分和二元数据处理等功能。recommenderlab还提供了训练/测试分割、MSE、RMSE、MAE等多种评估方法和指标,适用于电商、内容推荐等多个领域,为推荐系统研究和开发提供了全面的工具支持。
vec4ir - 基于词嵌入的开源信息检索框架
Vec4IR信息检索词嵌入评估框架相似度计算Github开源项目
Vec4IR是一个开源的信息检索框架,专注于实际应用场景。它原生支持词嵌入技术,与gensim无缝集成。框架提供内置评估功能,API设计参考sklearn,便于扩展新模型。核心组件包括匹配和相似度评分,还支持查询扩展等高级特性。Vec4IR适合研究人员评估检索模型,也可帮助数据科学家选择最佳方案。框架核心功能包括文档匹配和相似度评分。它还提供查询扩展、伪相关反馈等高级特性,可满足复杂的检索需求。Vec4IR采用模块化设计,便于研究人员快速实现和评估新的检索算法。对于数据科学家,该框架也是比较不同检索模型性能的理想工具。
RefChecker - 针对大语言模型输出的精细化幻觉检测框架
RefChecker大语言模型幻觉检测评估框架事实性Github开源项目
RefChecker是一个标准化评估框架,用于检测大语言模型(LLM)输出中的细微幻觉。该框架将LLM响应分解为知识三元组,在三种不同背景下进行精细化幻觉检测。项目包括人工标注的基准数据集、模块化架构和自动化检查器,有助于评估和改进LLM输出的事实准确性。RefChecker为研究人员和开发者提供了评估和提高LLM生成内容可靠性的工具。
相关文章
Ragas: 评估和优化RAG系统的强大框架
3 个月前
AgentBench: 评估大语言模型作为智能体的全面基准测试
3 个月前
OpenAI Evals:评估大型语言模型的开源框架
3 个月前
Codec-SUPERB:一个全面评估音频编解码模型的创新基准测试平台
3 个月前
EvalScope: 一个简化高效的大型模型评估与性能基准测试框架
3 个月前
BigCode评估工具集:一个用于自回归代码生成语言模型评估的强大框架
3 个月前
LMMS-Eval: 加速大型多模态模型的评估与发展
3 个月前
TFB: 全面公平的时间序列预测基准测试工具
3 个月前
推荐系统算法开发与测试利器: R语言recommenderlab包详解
3 个月前