#模型评估

ollama-grid-search - Rust构建的LLM模型和提示优化工具
OllamaA/B测试模型评估Rust参数优化Github开源项目
Ollama Grid Search是一款用Rust开发的工具,通过自动化选择和优化LLM模型、提示及推理参数,帮助用户进行组合迭代和结果可视化。适用于本地或远程Ollama服务器,支持多模型和参数的A/B测试,输出推理参数和响应元数据,并支持有限并发和同步推理调用。用户可以下载实验数据(JSON格式)并评估对比不同模型和提示组合。
MotionGPT - 文本转动作生成的通用平台
MotionGPTPyTorchLLaMAfinetuning模型评估Github开源项目
MotionGPT是通过微调大型语言模型(LLMs)来实现通用运动生成的开源项目。项目提供详细的安装指南、预训练模型及数据集应用实例,支持高效的文本到动作转换及生成。用户可以轻松实现姿态可视化和SMPL网格渲染。项目页面详细介绍了多种使用场景,适用于各种运动生成需求。
fairness-indicators - Tensorflow 的公平性评估和可视化工具包
Fairness IndicatorsTensorflow公平性指标模型评估二分类和多分类分类器Github开源项目
Fairness Indicators支持团队评估和改进模型的公平性,适用于二元和多分类模型。通过TensorFlow工具包,可以计算常见的公平性指标,并分析数据集分布及模型性能。该工具能处理大规模数据集,并提供信心区间和多阈值评估功能。Fairness Indicators与TensorFlow Data Validation、TensorFlow Model Analysis和What-If Tool紧密集成,助力优化模型。
causallib - 通过观察性数据的因果推断分析
causallib因果推断Python包机器学习模型评估Github开源项目
Causallib是一个Python包,提供统一的因果推断方法,灵感来自scikit-learn API,支持复杂机器学习模型的集成。用户可以进行有适应性的模块化因果建模,提供更准确的效果估计。该包还包括评估工具,用于诊断模型表现差异,适用于各种治疗策略和潜在结果预测。研究人员可以使用causallib从现实世界的观察性数据中推断干预措施的因果影响,适用于医疗和社会科学等领域。更多信息请访问causallib文档。
FedScale - 可扩展的开源联邦学习(FL)引擎和基准测试平台
FedScale联邦学习数据集部署模型评估Github开源项目
FedScale是一个可扩展的开源联邦学习(FL)引擎和基准测试平台,提供高级API用于实现FL算法,并在多种硬件和软件环境中进行大规模部署和评估。FedScale包括大规模的FL基准测试,涵盖图像分类、对象检测、语言建模和语音识别等任务,同时提供数据集真实模拟FL训练环境。用户可以通过简单的安装流程在Linux和MacOS上快速部署,并利用丰富的教程和数据集开展实验。
sklearn-evaluation - 机器学习模型评估工具
sklearn-evaluation机器学习模型评估PythonJupyter notebookGithub开源项目
sklearn-evaluation是一款简便的机器学习模型评估工具,支持绘制混淆矩阵、特征重要性、精准率-召回率、ROC曲线、肘部曲线和轮廓图等多种图表,并生成HTML格式的评估报告。该工具还可使用本地SQLite数据库进行实验跟踪,分析Jupyter notebook输出,并通过SQL查询notebook数据。兼容Python 3.7及更高版本,适用于Linux、macOS和Windows平台,提供全面的模型评估功能。
pyss3 - 简洁明了的文本分类Python库
PySS3文本分类机器学习开源项目模型评估Github
PySS3是一个用于文本分类的Python库,使用简单且可解释的SS3模型,适合需要清晰了解决策依据的应用场景。PySS3提供了诸如SS3类、实时测试的Live_Test类和评估工具Evaluation类,帮助用户快速开发和优化机器学习模型。直观的API和可视化工具使得用户可以轻松提升模型性能,理解模型决策的原因。
encord-active - 专为测试、验证和优化模型性能而设计的开源工具包
Encord Active开源工具包模型评估数据标签虚拟环境Github开源项目
Encord Active是一个开源工具包,专为测试、验证和优化模型性能而设计。其功能包括高级错误分析、模型可解释性报告、自然语言数据搜索,以及数据集错误与偏见的检测和修复。支持本地和云端版本,适用于计算机视觉项目的各个阶段。
talos - 全自动化TensorFlow和Keras超参数优化工具
TalosTensorFlowKeras超参数优化模型评估Github开源项目
Talos通过自动化超参数实验和模型评估,提升了TensorFlow (tf.keras) 和 Keras 的工作流程,无需学习新的语法或模板。用户可以在几分钟内配置和评估超参数实验,适用于各种预测任务。Talos支持 Linux、Mac OS 和 Windows 系统,并兼容 CPU、GPU 和多 GPU 系统,非常适合研究者和数据科学家使用。
AlignLLMHumanSurvey - 更好的理解和对齐大型语言模型与人类需求的方法综述
Large Language ModelsNLP数据收集模型评估培训方法Github开源项目
本综述探讨了大型语言模型(LLMs)与人类需求对齐的研究进展,包括数据收集、训练方法和模型评估。文章展示了如何改进LLMs在理解人类指令、避免偏见和减少虚假信息方面的表现,并为研究人员和从业者提供了有价值的参考,助力LLMs更好地满足人类任务和期望。
uncertainty-calibration - 深度学习预测校准技术的前沿研究与实践应用
预估校准机器学习广告推荐不确定性量化模型评估Github开源项目
uncertainty-calibration项目是预估校准技术研究的综合资源库。该项目涵盖后处理方法、模型集成方法和校准理论分析等多个领域,并提供广告等实际应用案例。项目还包括评价指标、公开数据集和中文资料,为研究人员和从业者提供了全面的校准技术参考。
Awesome-Multimodal-Large-Language-Models - 多模态大语言模型研究资源与最新进展汇总
多模态大语言模型视觉语言模型指令微调视频理解模型评估Github开源项目
该项目汇总了多模态大语言模型(MLLMs)领域的最新研究成果,包括论文、数据集和评估基准。涵盖多模态指令微调、幻觉、上下文学习等方向,提供相关代码和演示。项目还包含MLLM调查报告及MME、Video-MME等评估基准,为研究人员提供全面参考。
DeepSeek-MoE - 创新MoE架构打造高效大规模语言模型
DeepSeekMoE大语言模型MoE架构模型评估开源模型Github开源项目
DeepSeek-MoE项目开发了创新的混合专家架构语言模型,采用细粒度专家分割和共享专家隔离策略。该16.4B参数模型仅使用40%计算量就达到DeepSeek 7B和LLaMA2 7B的性能水平。模型可在单个40GB内存GPU上直接部署运行,无需量化,为学术和商业研究提供了高效便捷的工具。
TACO - 推动算法代码生成模型发展的新基准数据集
TACO代码生成算法数据集模型评估Github开源项目
TACO是一个大规模算法代码生成数据集,包含25,443个训练问题和1,000个测试问题。它提供具挑战性的编程竞赛题目,旨在提升代码生成模型的实际应用能力。TACO的特点包括规模大、质量高的问题-解答对,以及细粒度的任务主题、算法、技能和难度标签。这些特性为代码生成模型的训练和评估提供了精确参考,有助于推动相关研究和应用的进展。
SAM-Med2D - 医学图像分割新突破 SAM-Med2D模型
SAM-Med2D医学图像分割数据集模型训练模型评估Github开源项目
SAM-Med2D是基于Segment Anything Model的医学图像分割模型,在包含4.6M图像和19.7M掩码的大规模数据集上进行微调。该项目涵盖10种医学数据模态、4种解剖结构和病变,以及31个主要人体器官。SAM-Med2D在多个测试集上表现优秀,尤其在点提示和边界框提示方面效果显著,为医学图像分割领域提供了新的解决方案。
TinyLlama - 3万亿token训练的小型1.1B参数语言模型
TinyLlama语言模型AI预训练开源项目模型评估Github
TinyLlama是一个使用3万亿token预训练的1.1B参数语言模型。它与Llama 2架构兼容,可集成到现有Llama项目中。TinyLlama体积小巧,适用于计算和内存受限的场景。该项目开源了预训练和微调代码,具有高效的训练和推理性能。TinyLlama可应用于推测解码、边缘计算和实时对话等领域。
lazypredict - 自动化机器学习模型评估工具
Lazy Predict机器学习模型评估自动化建模Python库Github开源项目
LazyPredict 是一个开源的 Python 库,用于机器学习自动化。它能快速构建和比较多种模型,支持分类和回归任务,无需复杂的参数调优。通过自动训练多个模型并生成性能报告,LazyPredict 帮助识别最适合特定数据集的模型类型,适用于初步评估和基准测试,显著提高了数据科学工作流程的效率。
Parameter-Efficient-Transfer-Learning-Benchmark - 统一视觉参数高效迁移学习评测基准
V-PETL Bench参数高效迁移学习计算机视觉基准测试模型评估Github开源项目
V-PETL Bench是一个统一的视觉参数高效迁移学习评测基准。该项目选择30个多样化数据集,涵盖图像识别、视频动作识别和密集预测任务,评估25种主流PETL算法。提供模块化代码库和完整训练资源,为计算机视觉研究提供全面评测平台。
bigcode-evaluation-harness - 开源代码生成模型评估框架
代码生成评估框架模型评估多语言支持BigCodeGithub开源项目
bigcode-evaluation-harness是一个评估代码生成模型的开源框架。它支持多种编程语言和任务,如代码补全、插入和翻译。该框架兼容Hugging Face上的自回归模型,具备多GPU生成能力,并可在Docker容器中运行以保证安全性和可重复性。框架集成了HumanEval、APPS等多个代码生成基准,为研究人员和开发者提供了全面评估代码模型性能的工具。
BIG-bench - 评估大型语言模型能力的开放基准
BIG-bench语言模型基准测试任务创建模型评估Github开源项目
BIG-bench是一个开放的基准测试项目,致力于评估大型语言模型的能力并预测其未来发展。该项目包含200多个多样化任务,涉及算术、推理等多个领域。研究人员可通过JSON或编程方式贡献新任务,并利用公开模型进行评估。BIG-bench Lite作为24个精选任务的子集,提供了高效的模型性能评估方法。这一平台为深入研究语言模型能力提供了宝贵资源。
pyllms - 多模型连接和性能评估的Python语言模型库
PyLLMs语言模型APIPython库模型评估Github开源项目
PyLLMs是一个用于连接多种语言模型的Python库。它提供标准化响应元数据、多模型同时调用和性能基准测试功能。该库支持异步和流式处理,并可通过简单代码实现LLM连接。PyLLMs适用于自然语言处理和AI应用开发,为开发者提供了便捷的语言模型访问方式。
LLMBox - 全面的大型语言模型训练与评估框架
LLMBox大语言模型训练管道模型评估高效推理Github开源项目
LLMBox是一个综合性大型语言模型(LLM)库,集成了统一的训练流程和全面的模型评估功能。该框架旨在提供LLM训练和应用的完整解决方案,其设计注重实用性,在训练和使用过程中体现出高度的灵活性和效率。LLMBox支持多样化的训练策略和数据集,提供丰富的评估方法,并具备高效的推理和量化能力,为LLM的研究和开发提供了强大支持。
genai-quickstart-pocs - Amazon Bedrock生成式AI应用示例集
Amazon Bedrock生成式AIRAG模型评估语言模型Github开源项目
项目展示了多个Amazon Bedrock生成式AI应用实例,包括文档摘要、RAG问答、图像生成等。提供Python和.NET两种实现,并集成Streamlit前端,方便快速验证概念。这些示例为开发者提供了丰富的参考,有助于构建创新AI解决方案。
yet-another-applied-llm-benchmark - 基于真实场景的大语言模型能力评估基准
LLM基准测试模型评估数据流DSLDocker容器API密钥Github开源项目
yet-another-applied-llm-benchmark是一个评估大语言模型在实际应用场景中表现的基准测试项目。该项目包含近100个源自真实使用情况的测试案例,涵盖代码转换、反编译、SQL生成等多种任务。通过简单的数据流DSL设计测试,项目提供了一个灵活的框架来评估大语言模型的实际能力。这个基准虽不是严格的学术标准,但为开发者提供了衡量大语言模型在日常编程任务中表现的实用方法。
LastMile AI - 全面的生成式AI开发工具集,加速应用从原型到生产
AI工具RAG生成式AI提示工程模型评估AI开发平台
LastMile AI是面向工程师的生成式AI开发平台。它整合RAG工作台、AIConfig和服务网格等工具,支持RAG管道调试、提示词优化和模型管理。平台助力开发者高效将AI原型转化为生产应用,同时提供自动评估、版本控制和统一API等功能,为企业级AI应用开发提供全方位支持。
Scale AI - 领先的AI训练数据和模型开发服务提供商
AI工具AI应用数据引擎生成式AI企业AI模型评估
Scale AI为企业和政府机构提供高质量AI训练数据和模型服务。核心产品包括数据标注管理平台Scale Data Engine和生成式AI开发平台Scale GenAI Platform。公司与OpenAI、Microsoft等顶级AI企业合作,为自动驾驶、计算机视觉、自然语言处理等领域提供数据支持。Scale AI结合AI和人工标注,助力客户构建先进AI系统,推动AI技术落地应用。
RePlay - 全周期推荐系统开发与评估框架
RePlay推荐系统数据预处理模型评估超参数优化Github开源项目
RePlay是一个覆盖推荐系统全生命周期的开发评估框架。它集成了数据预处理、模型构建、参数优化、性能评估和模型集成等功能。该框架支持CPU、GPU等多种硬件,并可与PySpark结合实现分布式计算。RePlay能帮助开发者顺利将推荐系统从离线实验转到在线生产环境,提升系统的可扩展性和适应性。
checklist - 全面评估NLP模型行为的测试框架
CheckListNLP测试行为测试模型评估Github开源项目
CheckList是一个用于全面测试NLP模型的框架,它提供了多种测试类型和工具。主要功能包括生成测试数据、扰动现有数据、创建和运行各类测试等。通过CheckList,研究人员和开发者可以更全面地评估NLP模型的行为表现,识别潜在问题和偏差。该项目包含详细教程和代码示例,支持多语言测试,并可与主流NLP库集成。
langtest - 开源工具助力语言模型全面测试与优化
LangTest语言模型测试NLP模型评估AI偏见检测Github开源项目
LangTest是一款强大的开源工具,专为语言模型的测试和优化而设计。该工具提供超过60种测试类型,全面评估模型的鲁棒性、偏见、表示、公平性和准确性。LangTest兼容多个主流NLP框架,如Spark NLP、Hugging Face和Transformers。此外,它还能对OpenAI、Cohere等大型语言模型进行问答、毒性检测和临床测试等方面的评估。通过使用LangTest,数据科学家可以开发出更安全、可靠和负责任的自然语言处理模型。
JudgeLM - 大语言模型开放场景高效评估技术
JudgeLM大语言模型模型评估开放式任务微调Github开源项目
JudgeLM是一个用于训练和评估大语言模型评判器的开放平台。通过微调技术,该项目实现了对开放场景中大语言模型的高效评估,评判一致性超过人类水平。JudgeLM提供先进的评判器训练和评估代码,能够处理单一回答、多模态模型、多个回答和多轮对话等任务。此外,该平台还集成了分布式多模型服务系统和Web界面,方便用户使用和部署。
llm-comparator - 交互式可视化工具对比分析大语言模型性能
LLM Comparator可视化工具模型评估JSON格式Python库Github开源项目
LLM Comparator是一个开源的交互式可视化工具,用于分析和比较大语言模型的评估结果。用户可上传自定义JSON文件或使用示例数据,通过多种可视化方式展示不同模型在各类任务中的表现差异。工具配套Python库可生成兼容JSON文件,支持自动模型评估和原理聚类。研究人员和开发者可借助此工具深入洞察不同模型的优劣,为大语言模型研究提供直观分析支持。
AutoQuant - 开源自动化机器学习工具包
AutoCatBoostRegression机器学习回归模型自动化建模模型评估Github开源项目
AutoQuant是一个开源的自动化机器学习工具包,旨在提升模型开发和运营效率。它集成了CatBoost、LightGBM、XGBoost和H2O等先进算法,支持GPU和CPU计算。该工具包涵盖了特征工程、模型训练、评估和部署等机器学习全流程。AutoQuant在多个行业应用中表现出色,为数据科学家提供了一个高效的机器学习开发平台。
RecSysDatasets - 推荐系统公开数据集汇总及处理工具
推荐系统数据集RecBole数据处理模型评估Github开源项目
RecSysDatasets是一个汇总公开推荐系统数据集的开源项目。该项目收集了电商、广告、电影等多个领域的数据集,并提供将数据集转换为统一格式的工具。这有助于研究人员更便捷地获取和使用各类推荐系统数据集,为算法开发和评估提供支持。项目与RecBole推荐系统库集成,便于进行算法测试。
pattern_classification - 机器学习和模式分类资源集合
机器学习模式分类数据预处理模型评估聚类分析Github开源项目
该项目汇集了机器学习和模式分类领域的全面资源。内容包括教程、示例代码、数据集、工具和技术说明等。涵盖数据预处理、特征选择、多种算法实现等方面。还提供数据可视化案例、统计模式分类研究、相关书籍和讲座资料。适合学习和应用机器学习技术的研究者和从业者参考使用。
presidio-research - 开源PII检测与评估工具包助力隐私保护
PresidioPII检测数据生成模型评估命名实体识别Github开源项目
Presidio-research是一个开源的个人身份信息(PII)检测模型开发和评估工具包。它集成了假数据生成、数据表示、模型评估和训练等功能。研究人员可利用该工具包生成合成数据集、评估PII识别性能,以及训练新的命名实体识别模型。Presidio-research支持spaCy、Flair和CRF等主流NLP框架,为PII检测研究提供了综合性解决方案。
fiftyone - 高效的数据集构建与计算机视觉模型工具
FiftyOne数据集计算机视觉模型评估机器学习Github开源项目
FiftyOne 是一款提升机器学习工作流的开源工具,通过可视化数据集和解读模型结果来提高效率。用户可用它处理复杂标签、评估模型、探索场景、识别错误模式和注释错误等。安装简便,可通过 pip 安装并运行示例代码快速上手。