#模型评估

SAM-Med2D: 二维医学图像分割的革命性进展

2024年09月05日

SAM-Med2D 医学图像分割数据集模型训练模型评估 Github 开源项目

2024年09月05日

校准不确定度:测量与校准中的关键概念

2024年09月05日

预估校准机器学习广告推荐不确定性量化模型评估 Github 开源项目

2024年09月05日

DeepSeek-MoE: 革新混合专家语言模型架构,实现专家终极专门化

2024年09月04日

DeepSeekMoE 大语言模型 MoE架构模型评估开源模型 Github 开源项目

2024年09月04日

TACO: 突破算法代码生成的新里程碑

2024年09月04日

TACO 代码生成算法数据集模型评估 Github 开源项目

2024年09月04日

多模态大语言模型的最新进展:一场AI视觉与语言融合的革命

2024年09月04日

多模态大语言模型视觉语言模型指令微调视频理解模型评估 Github 开源项目

2024年09月04日

Talos: 革命性的深度学习超参数优化工具

2024年09月04日

Talos TensorFlow Keras 超参数优化模型评估 Github 开源项目

2024年09月04日

Encord Active: 革新计算机视觉的开源工具包

2024年09月04日

Encord Active 开源工具包模型评估数据标签虚拟环境 Github 开源项目

2024年09月04日

深入解析Fairness Indicators: TensorFlow的公平性评估与可视化工具包

2024年09月04日

Fairness Indicators Tensorflow 公平性指标模型评估二分类和多分类分类器 Github 开源项目

2024年09月04日

FedScale: 开源联邦学习平台的全面解析

2024年09月04日

FedScale 联邦学习数据集部署模型评估 Github 开源项目

2024年09月04日

Ollama Grid Search: 一款强大的LLM模型评估和比较工具

2024年08月31日

Ollama A/B测试模型评估 Rust 参数优化 Github 开源项目

2024年08月31日

相关项目

ollama-grid-search

Ollama Grid Search是一款用Rust开发的工具，通过自动化选择和优化LLM模型、提示及推理参数，帮助用户进行组合迭代和结果可视化。适用于本地或远程Ollama服务器，支持多模型和参数的A/B测试，输出推理参数和响应元数据，并支持有限并发和同步推理调用。用户可以下载实验数据（JSON格式）并评估对比不同模型和提示组合。

MotionGPT

MotionGPT是通过微调大型语言模型（LLMs）来实现通用运动生成的开源项目。项目提供详细的安装指南、预训练模型及数据集应用实例，支持高效的文本到动作转换及生成。用户可以轻松实现姿态可视化和SMPL网格渲染。项目页面详细介绍了多种使用场景，适用于各种运动生成需求。

fairness-indicators

Fairness Indicators支持团队评估和改进模型的公平性，适用于二元和多分类模型。通过TensorFlow工具包，可以计算常见的公平性指标，并分析数据集分布及模型性能。该工具能处理大规模数据集，并提供信心区间和多阈值评估功能。Fairness Indicators与TensorFlow Data Validation、TensorFlow Model Analysis和What-If Tool紧密集成，助力优化模型。

causallib

Causallib是一个Python包，提供统一的因果推断方法，灵感来自scikit-learn API，支持复杂机器学习模型的集成。用户可以进行有适应性的模块化因果建模，提供更准确的效果估计。该包还包括评估工具，用于诊断模型表现差异，适用于各种治疗策略和潜在结果预测。研究人员可以使用causallib从现实世界的观察性数据中推断干预措施的因果影响，适用于医疗和社会科学等领域。更多信息请访问causallib文档。

FedScale

FedScale是一个可扩展的开源联邦学习（FL）引擎和基准测试平台，提供高级API用于实现FL算法，并在多种硬件和软件环境中进行大规模部署和评估。FedScale包括大规模的FL基准测试，涵盖图像分类、对象检测、语言建模和语音识别等任务，同时提供数据集真实模拟FL训练环境。用户可以通过简单的安装流程在Linux和MacOS上快速部署，并利用丰富的教程和数据集开展实验。

sklearn-evaluation

sklearn-evaluation是一款简便的机器学习模型评估工具，支持绘制混淆矩阵、特征重要性、精准率-召回率、ROC曲线、肘部曲线和轮廓图等多种图表，并生成HTML格式的评估报告。该工具还可使用本地SQLite数据库进行实验跟踪，分析Jupyter notebook输出，并通过SQL查询notebook数据。兼容Python 3.7及更高版本，适用于Linux、macOS和Windows平台，提供全面的模型评估功能。

pyss3

PySS3是一个用于文本分类的Python库，使用简单且可解释的SS3模型，适合需要清晰了解决策依据的应用场景。PySS3提供了诸如SS3类、实时测试的Live_Test类和评估工具Evaluation类，帮助用户快速开发和优化机器学习模型。直观的API和可视化工具使得用户可以轻松提升模型性能，理解模型决策的原因。

encord-active

Encord Active是一个开源工具包，专为测试、验证和优化模型性能而设计。其功能包括高级错误分析、模型可解释性报告、自然语言数据搜索，以及数据集错误与偏见的检测和修复。支持本地和云端版本，适用于计算机视觉项目的各个阶段。

fiftyone

FiftyOne 是一款提升机器学习工作流的开源工具，通过可视化数据集和解读模型结果来提高效率。用户可用它处理复杂标签、评估模型、探索场景、识别错误模式和注释错误等。安装简便，可通过 pip 安装并运行示例代码快速上手。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com