#LongBench

LongBench: 一个双语多任务的长文本理解基准测试

3 个月前

LongBench 长文本理解大模型评估多语言 Github 开源项目

3 个月前

LongBench入门学习资料汇总 - 首个双语多任务长文本理解基准测试

2 个月前

LongBench 长文本理解大模型评估多语言 Github 开源项目

2 个月前

相关项目

LongBench

LongBench首次为大语言模型的长文本理解能力提供双语、多任务的全面评估基准。它覆盖中文和英文，包含六大类共21种任务，适用于单文档QA、多文档QA、摘要提取、少样本学习、合成任务和代码补全等场景。该项目提供自动化评估方法以降低成本，并涵盖平均长度为5k至15k的测试数据。同时，LongBench-E测试集通过统一采样，分析模型在不同输入长度的性能表现。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com