jury

综合性NLP实验评估工具包

Jury是一个全面的NLP实验评估工具包，提供多种自动化指标。它支持多种评估指标的同时计算，可处理多预测/多参考的评估场景。Jury优化了evaluate库的设计，简化了自定义指标的添加。该工具包统一了指标计算的输入结构，支持并发计算，适用于各类NLP项目。

访问官网

Github

文档

论文

介绍相关项目

ToolQA - 评估工具增强型大语言模型的开源数据集

GithubToolQA大语言模型工具增强开源项目数据集评估基准

ToolQA是一个开源数据集，专门用于评估工具增强型大语言模型。数据集涵盖8个领域，包含需要综合使用多个工具解答的问题，分为简单和困难两个级别。ToolQA通过人机协作创建，提供了数据统计、下载链接、工具实现和基准代码，为研究人员评估和改进大语言模型的外部工具使用能力提供全面资源。

alpaca_eval - 精确且成本低的指令追随语言模型自动评估工具

AlpacaEvalGPT-4Githubinstruction-following开源项目自动评价评估

AlpacaEval是一款基于LLM的自动评估工具，针对指令追随模型（如ChatGPT）的评估，具备快速、低成本和高度人类相关性（0.98）的特点。主要功能包括模型排行榜、自动评估器、评估器构建工具包及20K人工偏好数据。AlpacaEval 2.0通过长度控制胜率，提高了与ChatBot Arena的对应性，适合模型开发阶段的快速评估。

LLMBox - 全面的大型语言模型训练与评估框架

GithubLLMBox大语言模型开源项目模型评估训练管道高效推理

LLMBox是一个综合性大型语言模型(LLM)库，集成了统一的训练流程和全面的模型评估功能。该框架旨在提供LLM训练和应用的完整解决方案，其设计注重实用性，在训练和使用过程中体现出高度的灵活性和效率。LLMBox支持多样化的训练策略和数据集，提供丰富的评估方法，并具备高效的推理和量化能力，为LLM的研究和开发提供了强大支持。

XL-Judge-LLM - 多语言法律评判和文本生成的先进模型

GithubHuggingfacetransformers开源项目文本生成机器学习模型模型卡片自然语言处理

XL-Judge-LLM是基于Transformers库开发的文本生成模型，专注于法律评判和复杂文本生成。该模型利用维基百科和推理数据集等多个大规模数据集进行训练，在F1值、准确率和困惑度方面表现出色。支持多语言处理，可用于直接应用和下游任务，为法律评判和文本生成提供可靠的解决方案。

lmms-eval - 大规模多模态模型评估框架加速AI发展

AI基准测试GithubLMMs-eval多模态模型开源项目评估框架

lmms-eval是专为大规模多模态模型(LMMs)设计的评估框架,整合多种基准和数据集,提供一致高效的评估方法。支持图像、视频等多模态任务,简化评估流程,加速模型开发和性能比较。该框架为研究人员提供灵活工具,助力理解和改进LMMs能力,推动人工智能向通用人工智能(AGI)发展。lmms-eval旨在成为加速LMMs发展的重要生态系统组件。

MLJ.jl - Julia生态系统中全面的机器学习工具箱

GithubJuliaMLJ元算法开源项目机器学习模型选择

MLJ.jl是Julia语言生态系统中的机器学习工具箱，集成了约200个机器学习模型，提供统一接口和元算法。支持模型选择、调优、评估和组合等功能，适用于机器学习研究和应用。该项目由Alan Turing研究所发起，获得新西兰战略科学投资基金资助，为用户提供完善的文档和贡献指南。

langtest - 开源工具助力语言模型全面测试与优化

AI偏见检测GithubLangTestNLP开源项目模型评估语言模型测试

LangTest是一款强大的开源工具,专为语言模型的测试和优化而设计。该工具提供超过60种测试类型,全面评估模型的鲁棒性、偏见、表示、公平性和准确性。LangTest兼容多个主流NLP框架,如Spark NLP、Hugging Face和Transformers。此外,它还能对OpenAI、Cohere等大型语言模型进行问答、毒性检测和临床测试等方面的评估。通过使用LangTest,数据科学家可以开发出更安全、可靠和负责任的自然语言处理模型。

evidently - 用于评估、测试和监控机器学习系统的开源框架

EvidentlyGithubLLM监控开源框架开源项目数据漂移检测机器学习评估

Evidently是一个开源的Python库，专为评估和监控机器学习和大语言模型系统而设计。它支持分类、回归和推荐系统，并提供超过100种内置指标，允许用户自定义评估和测试。Evidently的模块化设计使用户能够通过Reports、Test Suites和实时监控Dashboard轻松实现评估和持续监控，适用于各种AI数据管道，从实验到生产环境。

fairlearn - AI系统公平性评估与缓解的Python工具

AI公平性FairlearnGithubPython包公平性算法公平性评估开源项目

Fairlearn是一个Python包，帮助开发者评估和缓解AI系统中的不公平问题。它提供缓解算法和模型评估指标，并附有Jupyter笔记本示例。Fairlearn侧重于群体公平性，评估并比较模型对不同群体的影响，提供多种解决不公平问题的策略，使用户在不同AI任务中找到最佳平衡。

daisyRec - 开源推荐系统评估和基准测试框架

GithubPython工具包协同过滤基准测试开源项目推荐系统深度学习

daisyRec是一个支持多维度公平比较的Top-N推荐任务基准测试框架。该开源工具整合了传统和深度学习推荐算法，支持CUDA加速和多个公开数据集。通过提供GUI命令生成器和严格的评估标准，daisyRec致力于推动推荐系统研究的可复现性和公平比较。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com