t5-large-medium项目介绍
项目概述
t5-large-medium项目是基于Transformer架构的T5 v1.1模型,专为日语文本处理而设计。该模型由Retrieva公司开发,并经过在大量日语语料上的预训练。项目使用开放许可协议CC-BY-SA 4.0发布,允许商业用途,但需提前联系开发者。
模型详细信息
T5模型是一种编码-解码结构的深度学习模型。t5-large-medium是在T5 v1.1版本上构建的,与原始的T5相比有若干改进:
- 在前馈隐藏层中使用GEGLU激活函数替代ReLU。
- 在预训练阶段关闭了Dropout(提升了模型质量),在微调时需重新启用。
- 取消了嵌入层和分类器层之间的参数共享。
- 使用"xl"和"xxl"替代了原来的"3B"和"11B",并调整了模型结构以增大d_model,减少num_heads和d_ff。
模型描述
- 开发者: Retrieva公司
- 模型类型: T5 v1.1
- 处理语言: 日语
- 许可证: CC-BY-SA 4.0
训练详情
t5-large-medium模型的训练使用了T5X框架,训练数据包括:
- 多国语言C4语料库的日语部分(mC4/ja)。
- 日本维基百科数据(20220920)。
数据预处理
在预处理阶段进行了一些过滤步骤:
- 移除不含平假名字符的文档,清除纯英文和中文文档。
- 使用URL顶级域名的白名单筛选以排除附属网站。
训练超参数
- dropout率:0.0
- 批量大小:256
- 精度:fp32
- 输入长度:512
- 输出长度:114
其余参数采用T5X的默认值,包括:
- 优化器:Adafactor
- 基础学习率:1.0
- 热身步骤:10000
训练共进行了1008824步。
技术规格
模型架构与目标
t5-large-medium作为T5 v1.1模型拥有大约770百万个参数。
计算基础设施
模型训练使用Google Cloud TPU v3-32。
软件
模型训练使用T5X框架。
更多信息
有关t5-large-medium项目的更多信息可访问Retrieva公司提供的链接。
模型卡作者
Nishitoba Jiro
模型卡联系
联系邮箱:pr@retrieva.jp
t5-large-medium项目通过改进的Transformer架构为日语自然语言处理提供了强大的技术支持,为开发人员和研究人员在这方面的工作提供了丰富的资源和选择。