#BABILong

BABILong: 突破长文本处理的新基准

3 个月前

BABILong 长文本处理语言模型评估推理能力数据集 Github 开源项目

3 个月前

相关项目

babilong

BABILong是一个用于评估自然语言处理模型长文本处理能力的基准测试。它将bAbI数据集的任务句子隐藏在PG19背景文本中，生成长达数百万标记的测试样本。该基准包含20个推理任务，涉及事实链接、归纳、演绎和计数等多个方面。BABILong为评估和改进大语言模型的长文本处理能力提供了有效工具，同时也对现有长文本模型提出了挑战。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com