#科学文本
scibert_scivocab_uncased - 为科学文本优化的预训练BERT语言模型
SciBERTGithub预训练模型科学文本开源项目自然语言处理语言模型Huggingface模型
SciBERT是一个专门针对科学文本的预训练语言模型。该模型基于114万篇科学论文全文训练,包含31亿个标记。SciBERT采用自定义科学词汇表,提供大小写敏感和不敏感两种版本。这个模型在科学文本处理任务中表现优异,是科研工作者的有力工具。研究人员可根据具体需求选择合适的模型版本,从而提高科学文本相关的自然语言处理任务效果。
scibert_scivocab_cased - 科学文献领域的预训练语言模型
语言模型科学文本语料库SciBERTGithub模型开源项目预训练模型Huggingface
SciBERT是一款用于科学文本的预训练语言模型,基于Semantic Scholar的114万篇论文和31亿个标记进行训练。其专有的scivocab词汇表利于更好地匹配训练语料,支持cased和uncased模型版本,适合科学文献分析。