#评估

bocoel入门指南 - 高效评估大语言模型的贝叶斯优化工具

2 个月前

BoCoEL 贝叶斯优化大语言模型评估数据集 Github 开源项目

2 个月前

LESS学习资料汇总 - 选择有影响力数据进行目标指令调优

2 个月前

LESS 数据选择指令微调模型训练评估 Github 开源项目

2 个月前

Bench学习资料汇总 - LLM评估工具

2 个月前

Bench LLM 评估 python GitHub Github 开源项目

2 个月前

LongBench入门学习资料汇总 - 首个双语多任务长文本理解基准测试

2 个月前

LongBench 长文本理解大模型评估多语言 Github 开源项目

2 个月前

prometheus-eval学习资料汇总 - 专用于评估语言模型的开源框架

2 个月前

Prometheus-Eval BiGGen-Bench Prometheus 2 BGB 评估语言模型 Github 开源项目

2 个月前

voicefixer_main - 语音修复框架学习资料汇总 - 基于神经声码器的通用语音修复方法

2 个月前

VoiceFixer 语音恢复训练评估神经声码器 Github 开源项目

2 个月前

LLM-eval-survey学习资料汇总 - 大型语言模型评估综述

2 个月前

大型语言模型自然语言处理评估 ChatGPT 论文 Github 开源项目

2 个月前

learning-to-learn项目资源汇总 - 基于TensorFlow的元学习框架

2 个月前

TensorFlow Sonnet 训练评估优化器 Github 开源项目

2 个月前

ssd.pytorch入门学习资料 - PyTorch实现的单发多框检测器

2 个月前

SSD PyTorch 训练数据集评估 Github 开源项目

2 个月前

大型语言模型在规划和推理方面的能力研究

3 个月前

LLM 规划评估基准测试人工智能 Github 开源项目

3 个月前

相关项目

learning-to-learn

了解如何使用TensorFlow和Sonnet在MNIST和CIFAR10等数据集上进行模型训练和评估。本文详细说明了命令行参数，涵盖了训练和评估的步骤，并介绍了从简单二次函数到复杂卷积神经网络的不同问题解决方案。掌握这些方法，可以实现自定义优化器并提高模型性能。

LongBench

LongBench首次为大语言模型的长文本理解能力提供双语、多任务的全面评估基准。它覆盖中文和英文，包含六大类共21种任务，适用于单文档QA、多文档QA、摘要提取、少样本学习、合成任务和代码补全等场景。该项目提供自动化评估方法以降低成本，并涵盖平均长度为5k至15k的测试数据。同时，LongBench-E测试集通过统一采样，分析模型在不同输入长度的性能表现。

voicefixer_main

VoiceFixer 为一款专业语音修复框架，致力于修复严重退化或历史性语音。集成多种先进算法，适用于去噪音、消除回声、提升语音清晰度等多种场景，提供灵活的配置和广泛的测试支持。

ignite

Ignite是一个为PyTorch设计的库，帮助用户以灵活和透明的方式训练及评估神经网络。这个库通过简化代码，提供了控制简单且强大的API，支持度量和实验管理等功能。其简单的引擎和事件系统，以及开箱即用的度量工具，使得模型评估变得轻松。它还包含用于训练管理、保存工作成果和记录关键参数的内置处理器。此外，Ignite还支持自定义事件，满足高级用户需求。

bench

Bench是一款适用于生产环境的LLM评估工具，支持比较不同的LLM、提示词和生成超参数（如温度和令牌数量）。它提供统一接口，实现LLM评估流程标准化，可测试开源LLM在特定数据上的表现，并将排行的排名转化为实际用例评分。用户可以安装Bench、创建并运行测试套件，通过本地UI查看结果。

LLM-eval-survey

作为一个独立资源，LLM-eval-survey汇集了关于大型语言模型（LLMs）的全面评估研究与资源。涵盖自然语言处理、逻辑推理、机器翻译等领域，旨在提升对这些先进模型的理解和应用。项目通过多维度的评估方法，助力研究人员和开发者深入探索LLMs的潜力与挑战，推动人工智能技术进步。还定期更新最新研究论文和实用资源，为学术和工业界提供重要信息与工具。

prometheus-eval

Prometheus-Eval是一个评估生成任务中大型语言模型（LLMs）的开源项目。最新的Prometheus 2版本内置多种高性能评估模型，并集成了提供9项核心能力、77个任务和765个实例的BiGGen-Bench评估平台。该项目支持本地推理和通过VLLM及LLM API进行远程评估，且能够方便地在Python环境中安装和使用。项目持续更新，以确保评估的准确性和效率。访问官方仓库获取更多信息。

LESS

LESS项目提供了一种数据选择方法，通过选择有影响力的数据来增强特定功能。该项目涵盖了安装要求、数据准备、数据选择和模型训练的详细步骤，并提供相应的脚本和指南。通过预热训练、构建梯度数据存储库、任务数据选择和最终训练四个步骤，提升模型在下游任务中的表现能力。利用Flan v2、COT、Dolly和Open Assistant等训练数据集，以及MMLU、TydiQA和BBH等评估数据集，优化特定任务的模型性能。

ssd.pytorch

该项目实现了基于PyTorch的SSD目标检测器，支持VOC和COCO数据集，并可使用Visdom进行训练过程中的实时损失可视化。页面包含详细的安装、训练和评估指南，并提供预训练模型的使用说明。项目展示了高效性能，并包含未来功能更新计划，帮助开发者快速上手并扩展应用。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com