pipeline-as-repo项目介绍
项目背景
pipeline-as-repo项目是一个学术竞赛性质的项目,旨在通过回答智力竞赛问题来评估项目的效果。参与者可以创建系统以完成该任务,或者在该设定中设计攻击性问题。这不仅激励个人提升问题解决能力,还能帮助团队分享数据和资源。项目允许参与者在问题预测以外的领域另辟蹊径。
数据介绍
项目使用的数据来自“Quiz Bowl”,这是一种在英语国家学术界之间举办的竞赛。每年有数百支队伍参加几十场比赛。与“危险边缘(Jeopardy)”的游戏机制不同,Quiz Bowl允许队伍在听题过程中随时按铃“抢答”。如果回答正确,队伍得分并进入下一题;如果错误,得分减少且对手获得答题机会。
项目鼓励参赛者使用任何自动化方式来选择答案,且不限于既有系统。此外,除测试题库外,参赛者可使用任何外部数据和公开软件。
比赛与评估
项目的评估将在Dynabench网站(https://dynabench.org/tasks/qa)的“Grounded QA”任务中进行。参赛者通过视频课程提交自己的问答模型,并与其它模型比较,排名结果公示于排行榜。目标是通过“抢答”机制赢得比赛得分,并最终在预期胜率上取得最高排名。
问题撰写
参赛者可选择撰写50道对现代自然语言处理系统具挑战性的问题。问题应在主题、需要的计算机技能以及实体上多样化,且足够具体和事实性,以至于人类亦能回答。此外,每个问题还需配以具体引用,解释问题对计算机的难度、背后的正确信息源以及趣味性所在。
问题应涵盖各个领域,包括艺术、文学、地理、历史、科学、电视与电影、音乐、生活方式和体育。每类撰写5道题,剩余的5道题则在其他未涉及或少数民族的问题上撰写。
提交阶段
项目分为多个里程碑阶段:
- 项目提案:说明团队成员、探索技术和完成时间表。
- 里程碑1:提交问题的答案选择和至少15题的初稿,以及一个符合API的系统提交。
- 里程碑2:根据反馈完善前30道题,并通过机器运行问题以获取评估结果,系统需能合理地提出答案。
- 最终演示:在线演示项目成就以及面临的挑战和评估结果。
- 最终问题提交:上传问题文本以供系统评测。
###成效评估
项目评估分为五个方面:口头演示、书面写作、技术水平、努力程度及表现。所有团队成员将获得相同的成绩,团队需要齐心协力创造出整体效果好的输出。
总结
pipeline-as-repo项目不仅考察参赛者的技术能力,还有助于提升问题解决、数据分析和团队合作等各项技能。通过参与这种集挑战性与技巧于一身的项目,参赛者将能够在学术和职业发展中获得更多可能性。