#模型评估

LangTest: 打造安全有效的语言模型评估工具

3 个月前
Cover of LangTest: 打造安全有效的语言模型评估工具

RePlay:构建端到端推荐系统的综合框架

3 个月前
Cover of RePlay:构建端到端推荐系统的综合框架

LLMBox:打造全面的大语言模型开发与评估工具库

3 个月前
Cover of LLMBox:打造全面的大语言模型开发与评估工具库

CheckList: 全面评估NLP模型的行为测试工具

3 个月前
Cover of CheckList: 全面评估NLP模型的行为测试工具

PyLLMs: 连接和评估顶级大语言模型的Python库

3 个月前
Cover of PyLLMs: 连接和评估顶级大语言模型的Python库

BIG-bench: 探索大规模语言模型的极限

3 个月前
Cover of BIG-bench: 探索大规模语言模型的极限

BigCode评估工具集:一个用于自回归代码生成语言模型评估的强大框架

3 个月前
Cover of BigCode评估工具集:一个用于自回归代码生成语言模型评估的强大框架

Parameter-Efficient Transfer Learning Benchmark: 一个统一的视觉参数高效迁移学习基准

3 个月前
Cover of Parameter-Efficient Transfer Learning Benchmark: 一个统一的视觉参数高效迁移学习基准

LazyPredict: 简化机器学习模型选择的强大工具

3 个月前
Cover of LazyPredict: 简化机器学习模型选择的强大工具

TinyLlama:一个开源的小型语言模型

3 个月前
Cover of TinyLlama:一个开源的小型语言模型
相关项目
Project Cover

ollama-grid-search

Ollama Grid Search是一款用Rust开发的工具,通过自动化选择和优化LLM模型、提示及推理参数,帮助用户进行组合迭代和结果可视化。适用于本地或远程Ollama服务器,支持多模型和参数的A/B测试,输出推理参数和响应元数据,并支持有限并发和同步推理调用。用户可以下载实验数据(JSON格式)并评估对比不同模型和提示组合。

Project Cover

MotionGPT

MotionGPT是通过微调大型语言模型(LLMs)来实现通用运动生成的开源项目。项目提供详细的安装指南、预训练模型及数据集应用实例,支持高效的文本到动作转换及生成。用户可以轻松实现姿态可视化和SMPL网格渲染。项目页面详细介绍了多种使用场景,适用于各种运动生成需求。

Project Cover

fairness-indicators

Fairness Indicators支持团队评估和改进模型的公平性,适用于二元和多分类模型。通过TensorFlow工具包,可以计算常见的公平性指标,并分析数据集分布及模型性能。该工具能处理大规模数据集,并提供信心区间和多阈值评估功能。Fairness Indicators与TensorFlow Data Validation、TensorFlow Model Analysis和What-If Tool紧密集成,助力优化模型。

Project Cover

causallib

Causallib是一个Python包,提供统一的因果推断方法,灵感来自scikit-learn API,支持复杂机器学习模型的集成。用户可以进行有适应性的模块化因果建模,提供更准确的效果估计。该包还包括评估工具,用于诊断模型表现差异,适用于各种治疗策略和潜在结果预测。研究人员可以使用causallib从现实世界的观察性数据中推断干预措施的因果影响,适用于医疗和社会科学等领域。更多信息请访问causallib文档。

Project Cover

FedScale

FedScale是一个可扩展的开源联邦学习(FL)引擎和基准测试平台,提供高级API用于实现FL算法,并在多种硬件和软件环境中进行大规模部署和评估。FedScale包括大规模的FL基准测试,涵盖图像分类、对象检测、语言建模和语音识别等任务,同时提供数据集真实模拟FL训练环境。用户可以通过简单的安装流程在Linux和MacOS上快速部署,并利用丰富的教程和数据集开展实验。

Project Cover

sklearn-evaluation

sklearn-evaluation是一款简便的机器学习模型评估工具,支持绘制混淆矩阵、特征重要性、精准率-召回率、ROC曲线、肘部曲线和轮廓图等多种图表,并生成HTML格式的评估报告。该工具还可使用本地SQLite数据库进行实验跟踪,分析Jupyter notebook输出,并通过SQL查询notebook数据。兼容Python 3.7及更高版本,适用于Linux、macOS和Windows平台,提供全面的模型评估功能。

Project Cover

pyss3

PySS3是一个用于文本分类的Python库,使用简单且可解释的SS3模型,适合需要清晰了解决策依据的应用场景。PySS3提供了诸如SS3类、实时测试的Live_Test类和评估工具Evaluation类,帮助用户快速开发和优化机器学习模型。直观的API和可视化工具使得用户可以轻松提升模型性能,理解模型决策的原因。

Project Cover

encord-active

Encord Active是一个开源工具包,专为测试、验证和优化模型性能而设计。其功能包括高级错误分析、模型可解释性报告、自然语言数据搜索,以及数据集错误与偏见的检测和修复。支持本地和云端版本,适用于计算机视觉项目的各个阶段。

Project Cover

fiftyone

FiftyOne 是一款提升机器学习工作流的开源工具,通过可视化数据集和解读模型结果来提高效率。用户可用它处理复杂标签、评估模型、探索场景、识别错误模式和注释错误等。安装简便,可通过 pip 安装并运行示例代码快速上手。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号