热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#BABILong
babilong - BABILong基准测试长文本处理能力 评估大语言模型极限
Github
开源项目
数据集
长文本处理
推理能力
语言模型评估
BABILong
BABILong是一个用于评估自然语言处理模型长文本处理能力的基准测试。它将bAbI数据集的任务句子隐藏在PG19背景文本中,生成长达数百万标记的测试样本。该基准包含20个推理任务,涉及事实链接、归纳、演绎和计数等多个方面。BABILong为评估和改进大语言模型的长文本处理能力提供了有效工具,同时也对现有长文本模型提出了挑战。
1
1
相关文章
BABILong: 突破长文本处理的新基准
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号