#评估指标

LLM排行榜学习资料汇总 - 一站式LLM性能评估平台

1 个月前

本文介绍了LLM-leaderboard项目,这是一个开源的大语言模型(LLM)排行榜平台,提供了全面的LLM性能评估和比较。文章总结了该项目的主要功能、数据来源、评估指标等,为读者了解和使用LLM排行榜提供了全面的指南。

LLM-Leaderboard 语言模型榜单开源评估指标 Github 开源项目

1 个月前

ranx: 高效的Python排序评估与融合库

2 个月前

ranx是一个基于Python的高性能排序评估和融合库,为信息检索和推荐系统提供便捷的评估和比较功能。

ranx 信息检索推荐系统评估指标融合算法 Github 开源项目

2 个月前

ControlSpeech: 革命性的零样本说话人克隆与语言风格控制技术

2 个月前

探索ControlSpeech项目如何通过解耦编解码器实现同时零样本说话人克隆和零样本语言风格控制,为语音合成领域带来突破性进展。

ControlSpeech 零样本说话人克隆语言风格控制语音合成评估指标 Github 开源项目

2 个月前

PySODEvalToolkit: 面向显著性目标检测和伪装目标检测的Python评估工具箱

2 个月前

PySODEvalToolkit是一个基于Python的评估工具箱,专门用于显著性目标检测(SOD)和伪装目标检测(COD)任务。它提供了丰富的评估指标和功能,支持灰度图像和二值图像的评估,并能够生成各种可视化曲线。

图像分割评估 Python工具箱评估指标 PR曲线 PySODMetrics Github 开源项目

2 个月前

RGBD语义分割技术综述:从传统方法到深度学习

2 个月前

本文全面回顾了RGBD语义分割领域的发展历程,系统总结了数据集、评价指标、主流方法及其性能,并对未来研究方向进行了展望。

RGBD语义分割深度学习数据集评估指标性能对比 Github 开源项目

2 个月前

continuous-eval学习资源汇总 - 基于数据驱动的LLM应用评估工具

1 个月前

continuous-eval是一个开源的数据驱动评估工具,专为大语言模型(LLM)应用而设计。本文汇总了continuous-eval的学习资源,包括官方文档、示例代码、博客文章等,帮助开发者快速上手使用这个强大的评估框架。

continuous-eval LLM评估开源数据驱动评估指标 Github 开源项目

1 个月前

基于TensorFlow 2的多功能文本分类框架:text_classifier_tf2

2 个月前

text_classifier_tf2是一个基于TensorFlow 2的文本分类框架,支持多种主流分类模型和技巧,可用于二分类和多分类任务。该项目提供了完整的训练、评估、预测流程,并支持模型部署,是一个功能丰富的文本分类工具包。

文本分类深度学习模型训练方法评估指标模型部署 Github 开源项目

2 个月前

OTTO推荐系统数据集:一个真实世界的电商会话推荐数据集

2 个月前

OTTO推荐系统数据集是一个大规模的真实电子商务数据集,专为多目标和基于会话的推荐系统研究而设计。它包含来自OTTO网店和应用程序的匿名用户行为日志,为研究人员提供了宝贵的资源。

推荐系统电子商务会话数据集多目标优化评估指标 Github 开源项目

2 个月前

seed-tts-eval: ByteDance的开源文本转语音评估工具

2 个月前

ByteDance开源了一个用于评估零样本文本转语音和语音转换能力的工具集,包含客观测试数据集和评估指标计算脚本。

TTS 语音合成评估指标测试集 AI安全 Github 开源项目

2 个月前

深度解析BytedanceSpeech开源的seed-tts-eval项目:评估零样本语音生成能力的客观测试集

2 个月前

探索BytedanceSpeech发布的seed-tts-eval项目,了解其如何通过创新的客观测试集和评估指标,为零样本语音生成技术的发展提供重要支持。

TTS 语音合成评估指标测试集 AI安全 Github 开源项目

2 个月前

相关项目

continuous-eval

continuous-eval是一个开源软件包，旨在为LLM驱动的应用提供全面的数据驱动评估。项目特点包括模块化评估系统，全面的度量指标库，可结合用户反馈进行评估，且支持生成大规模合成数据集以验证应用性能，适用于多种LLM应用场景的定制化评估。

llm-leaderboard

allRank

allRank是一个基于PyTorch的框架，旨在简化神经排序学习模型的实验。它提供多种损失函数和评分函数，并支持常用评估指标如NDCG和MRR。该框架支持添加自定义损失和配置模型与训练流程，适用于研究和工业应用。同时支持GPU和CPU架构，并集成了Google云存储功能。

RGBD-semantic-segmentation

Awesome-Evaluation-of-Visual-Generation

该资源库汇集了视觉生成评估领域的各种方法。内容涵盖图像和视频生成模型评估、样本质量评估及用户控制一致性评估等多个方面。项目详细介绍了Inception Score、Fréchet Inception Distance等经典指标及最新评估方法。同时收录了视觉生成改进研究和其他相关资源,为该领域研究者提供全面参考。

CharacterEval

CharacterEval是一个评估中文角色扮演对话代理(RPCAs)的基准。它包含1,785个多轮对话和23,020个样例，涵盖77个源自中国文学作品的角色。该基准采用四个维度的十三项指标进行评估，并开发了基于人工标注的角色奖励模型(CharacterRM)。实验显示，CharacterRM与人类评估的相关性显著高于GPT-4。

Awesome-Video-Diffusion-Models

本文综述了视频扩散模型领域的研究进展和开源资源。内容包括最新工具箱、基础模型、数据集和评估指标,涵盖文本到视频生成、视频编辑和理解等多个方向。文章系统梳理了该领域的关键技术和资源,为研究人员和开发者提供全面参考,有助于推动视频生成和处理技术的发展。

seed-tts-eval

seed-tts-eval是一个开源项目，提供评估零样本语音生成能力的客观测试集。该测试集包含英语和中文公开语料库样本，并配备计算词错误率和说话人相似度的脚本。这套工具主要用于评估语音合成模型在跨语言和零样本场景下的性能。项目采用Common Voice和DiDiSpeech-2数据集，包含3000个测试样本。评估指标包括使用Whisper和Paraformer模型的词错误率，以及基于WavLM的说话人相似度。这些工具有助于客观评估语音合成技术的进展。

PySODEvalToolkit

PySODEvalToolkit是一个Python工具包,用于评估图像灰度和二值分割算法的性能。它提供多种评估指标如MAE、F-measure和E-measure,适用于显著性目标检测和伪装目标检测等任务。该工具支持批量评估多个数据集和方法,可生成PR曲线等可视化结果,并具备多线程加速和结果导出功能。PySODEvalToolkit为研究人员提供了全面而高效的图像分割评估解决方案。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com