jobbert_skill_extraction

项目简介

jobbert_skill_extraction项目致力于从英文招聘信息中提取硬技能和软技能，这对于了解劳动力市场动态非常重要。然而，目前市场上用于此任务的数据集和标注指南相对较少，这使得这一研究领域的数据基础相对薄弱。通过此项目，研究团队希望填补这一空白。

背景与挑战

在劳动力市场中，技能提取（Skill Extraction, SE）是一个备受关注的任务，因为它可以帮助用人单位和求职者更好地了解需要的关键技能。然而，当前可用的数据集较少，通常包含的是众包获得的标签或者预定义技能库中的标签，这在一定程度上限制了技能提取的准确性和广泛性。因此，项目团队推出了一个全新的SE数据集——SKILLSPAN。

SKILLSPAN数据集

SKILLSPAN数据集由14,500个句子和超过12,500个标注区间组成，其标注标准由领域专家根据三个不同的来源制定，包括硬技能和软技能的标注。这个数据集的引入为研究人员和开发者提供了更加准确和全面的数据支持，有助于进一步推动技能提取技术的发展。

技术方法

项目采用了BERT基线模型，并在此基础上进行了多项实验：

长区间优化的语言模型：探索了Joshi等人和Beltagy等人提出的针对长文本段落优化的语言模型，以提高技能提取的准确率。
面向招聘信息领域的持续预训练：参照Han和Eisenstein及Gururangan等人提出的在特定领域进行持续预训练的策略，项目团队训练了专门适应招聘信息内容的模型。
多任务学习：尝试了结合多任务学习的方法，不过结果表明单任务学习在此技能提取任务中表现得更加出色。