#模型评估

LangTest: 打造安全有效的语言模型评估工具

3 个月前

LangTest 语言模型测试 NLP 模型评估 AI偏见检测 Github 开源项目

3 个月前

RePlay：构建端到端推荐系统的综合框架

3 个月前

RePlay 推荐系统数据预处理模型评估超参数优化 Github 开源项目

3 个月前

LLMBox：打造全面的大语言模型开发与评估工具库

3 个月前

LLMBox 大语言模型训练管道模型评估高效推理 Github 开源项目

3 个月前

CheckList: 全面评估NLP模型的行为测试工具

3 个月前

CheckList NLP 测试行为测试模型评估 Github 开源项目

3 个月前

PyLLMs: 连接和评估顶级大语言模型的Python库

3 个月前

PyLLMs 语言模型 API Python库模型评估 Github 开源项目

3 个月前

BIG-bench: 探索大规模语言模型的极限

3 个月前

BIG-bench 语言模型基准测试任务创建模型评估 Github 开源项目

3 个月前

BigCode评估工具集:一个用于自回归代码生成语言模型评估的强大框架

3 个月前

代码生成评估框架模型评估多语言支持 BigCode Github 开源项目

3 个月前

Parameter-Efficient Transfer Learning Benchmark: 一个统一的视觉参数高效迁移学习基准

3 个月前

V-PETL Bench 参数高效迁移学习计算机视觉基准测试模型评估 Github 开源项目

3 个月前

LazyPredict: 简化机器学习模型选择的强大工具

3 个月前

Lazy Predict 机器学习模型评估自动化建模 Python库 Github 开源项目

3 个月前

TinyLlama：一个开源的小型语言模型

3 个月前

TinyLlama 语言模型 AI预训练开源项目模型评估 Github

3 个月前

相关项目

ollama-grid-search

Ollama Grid Search是一款用Rust开发的工具，通过自动化选择和优化LLM模型、提示及推理参数，帮助用户进行组合迭代和结果可视化。适用于本地或远程Ollama服务器，支持多模型和参数的A/B测试，输出推理参数和响应元数据，并支持有限并发和同步推理调用。用户可以下载实验数据（JSON格式）并评估对比不同模型和提示组合。

MotionGPT

MotionGPT是通过微调大型语言模型（LLMs）来实现通用运动生成的开源项目。项目提供详细的安装指南、预训练模型及数据集应用实例，支持高效的文本到动作转换及生成。用户可以轻松实现姿态可视化和SMPL网格渲染。项目页面详细介绍了多种使用场景，适用于各种运动生成需求。

fairness-indicators

Fairness Indicators支持团队评估和改进模型的公平性，适用于二元和多分类模型。通过TensorFlow工具包，可以计算常见的公平性指标，并分析数据集分布及模型性能。该工具能处理大规模数据集，并提供信心区间和多阈值评估功能。Fairness Indicators与TensorFlow Data Validation、TensorFlow Model Analysis和What-If Tool紧密集成，助力优化模型。

causallib

Causallib是一个Python包，提供统一的因果推断方法，灵感来自scikit-learn API，支持复杂机器学习模型的集成。用户可以进行有适应性的模块化因果建模，提供更准确的效果估计。该包还包括评估工具，用于诊断模型表现差异，适用于各种治疗策略和潜在结果预测。研究人员可以使用causallib从现实世界的观察性数据中推断干预措施的因果影响，适用于医疗和社会科学等领域。更多信息请访问causallib文档。

FedScale

FedScale是一个可扩展的开源联邦学习（FL）引擎和基准测试平台，提供高级API用于实现FL算法，并在多种硬件和软件环境中进行大规模部署和评估。FedScale包括大规模的FL基准测试，涵盖图像分类、对象检测、语言建模和语音识别等任务，同时提供数据集真实模拟FL训练环境。用户可以通过简单的安装流程在Linux和MacOS上快速部署，并利用丰富的教程和数据集开展实验。

sklearn-evaluation

sklearn-evaluation是一款简便的机器学习模型评估工具，支持绘制混淆矩阵、特征重要性、精准率-召回率、ROC曲线、肘部曲线和轮廓图等多种图表，并生成HTML格式的评估报告。该工具还可使用本地SQLite数据库进行实验跟踪，分析Jupyter notebook输出，并通过SQL查询notebook数据。兼容Python 3.7及更高版本，适用于Linux、macOS和Windows平台，提供全面的模型评估功能。

pyss3

PySS3是一个用于文本分类的Python库，使用简单且可解释的SS3模型，适合需要清晰了解决策依据的应用场景。PySS3提供了诸如SS3类、实时测试的Live_Test类和评估工具Evaluation类，帮助用户快速开发和优化机器学习模型。直观的API和可视化工具使得用户可以轻松提升模型性能，理解模型决策的原因。

encord-active

Encord Active是一个开源工具包，专为测试、验证和优化模型性能而设计。其功能包括高级错误分析、模型可解释性报告、自然语言数据搜索，以及数据集错误与偏见的检测和修复。支持本地和云端版本，适用于计算机视觉项目的各个阶段。

fiftyone

FiftyOne 是一款提升机器学习工作流的开源工具，通过可视化数据集和解读模型结果来提高效率。用户可用它处理复杂标签、评估模型、探索场景、识别错误模式和注释错误等。安装简便，可通过 pip 安装并运行示例代码快速上手。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com