#TencentPretrain
TencentPretrain - 多模态预训练和微调框架,支持文本、视觉与音频数据
TencentPretrain预训练多模态模型库下游任务Github开源项目
腾讯开发的多模态预训练框架TencentPretrain,专为文本、视觉和音频数据设计,具有高效的模块化设计,便于使用现有预训练模型并提供扩展接口。支持CPU、单GPU及分布式训练模式,拥有丰富的预训练模型,适用于如分类、机器阅读理解等多种下游任务,在多个竞赛中表现优异。详见完整文档及快速入门指南。
gpt2-chinese-cluecorpussmall - 中文GPT2预训练模型与多模态扩展简介
UER-pyTencentPretrainHuggingfaceGithub开源项目模型预训练GPT2文本生成
项目涵盖了使用UER-py和TencentPretrain的中文GPT2模型的预训练过程,从GPT2-distil到GPT2-xlarge的多个版本。借助CLUECorpusSmall数据集,这些模型有效支持中文文本生成,并扩展至多模态预训练。模型可通过UER-py Modelzoo或HuggingFace下载,用于实际文本生成应用。
roberta-base-finetuned-dianping-chinese - 中文RoBERTa模型用于多领域文本情感和主题分类
TencentPretrain文本分类RoBERTa模型Github开源项目UER-py模型微调Huggingface
该项目包含利用UER-py和TencentPretrain微调的中文RoBERTa-Base模型,用于用户评论和新闻数据的情感及主题分类。模型可通过HuggingFace获取,适用于多种文本分类任务,具备高度的分类精准度。