SPECTER2:科学文献嵌入表示的新一代模型
SPECTER2是一个专门用于生成科学文献嵌入表示的模型家族,它是SPECTER模型的继任者。这个模型家族能够为科学任务生成特定任务的嵌入表示,尤其是当它与适配器(adapters)配对使用时。SPECTER2的基础编码器可以与相关的特定任务适配器结合使用,以生成有效的嵌入表示,用于下游应用。
主要特点
- 基于科学文献的标题和摘要生成嵌入表示
- 支持短文本查询的嵌入表示生成
- 提供多种任务格式的适配器,包括分类、回归、相似度和临时搜索
- 在超过600万个科学论文引用三元组上进行训练
- 在SciRepEval基准测试上进行评估
模型架构
SPECTER2基于bert-base-uncased模型,并添加了适配器模块。它是从allenai/scibert模型微调而来的。模型采用Apache 2.0许可证发布。
使用方法
SPECTER2提供了多个版本的模型,以适应不同的任务需求:
- 相似度任务:allenai/specter2_aug2023refresh
- 临时查询任务:allenai/specter2_aug2023refresh_adhoc_query
- 分类任务:allenai/specter2_aug2023refresh_classification
- 回归任务:allenai/specter2_aug2023refresh_regression
使用时,需要先加载基础模型,然后根据任务需求加载相应的适配器。
训练细节
SPECTER2的训练分为两个阶段:
- 基础模型训练:在超过600万个科学论文引用三元组上进行训练
- 适配器训练:在SciRepEval训练任务上训练特定任务格式的适配器
训练使用了大批量(1024和256)、较长的最大输入长度(512)和混合精度训练等技术。
评估结果
SPECTER2在SciRepEval和MDCR等基准测试上都取得了优异的表现,超越了之前的模型如SPECTER和SciNCL。在SciRepEval上,SPECTER2-Adapters在训练内和训练外任务上分别达到了62.3和59.2的得分,平均得分为71.2。在MDCR上,它在MAP和Recall@5指标上分别达到了38.4和33.0,显著超过了其他模型。
总结
SPECTER2为科学文献嵌入表示提供了一个强大而灵活的解决方案。通过结合基础模型和特定任务适配器,它能够在各种科学文献相关任务中表现出色,为研究人员和开发者提供了有价值的工具。