bertweet-large项目介绍
项目背景
BERTweet是首个专门针对英语推文进行大规模预训练的公共语言模型。它基于RoBERTa的预训练流程而训练。BERTweet所使用的预训练语料库包括8.5亿条英语推文(大约160亿个词汇,约80GB),其中包含从2012年1月至2019年8月流出的8.45亿条推文,以及500万条与COVID-19大流行相关的推文。
模型介绍
BERTweet的开发者包括Dat Quoc Nguyen, Thanh Vu和Anh Tuan Nguyen。该模型的总体架构及实验结果详见于他们在2020年于《实证方法自然语言处理会议》上的一篇论文中。BERTweet的设计旨在更好地理解和处理推文中的自然语言,并在多个自然语言处理应用中表现出色。
主要成果
实验表明,BERTweet在各项任务中,包括词性标注、命名实体识别、情感分析和讽刺检测等,均取得了优异的表现。以下是BERTweet在不同任务中的一些主要成果的视觉化展示:
使用和引用
BERTweet已被多方引用和使用,如果在发表的结果中使用了BERTweet,或者将其集成到其他软件中,开发者请求大家引用他们的论文以作为学术礼仪。
联系与更多信息
如需更进一步的信息或有任何请求,可以访问BERTweet的主页。