bloom-7b1项目介绍
bloom-7b1是由BigScience团队开发的一个大规模开放科学多语言语言模型。该项目旨在为公众研究大型语言模型提供机会,具有以下特点:
模型概况
- 开发团队:BigScience,由来自多个国家的志愿者和机构合作完成
- 模型类型:基于Transformer的语言模型
- 版本:1.0.0
- 支持语言:多语言,包括45种自然语言和12种编程语言
- 许可证:RAIL License v1.0
- 预计发布日期:2022年7月11日
技术细节
- 模型架构:在Megatron-LM GPT2基础上改进
- 参数规模:70亿参数
- 训练目标:交叉熵损失
- 计算设施:法国Jean Zay超级计算机,使用384块A100 80GB GPU
- 训练时长:从2022年3月11日到7月5日
- 训练成本:相当于200-500万美元的云计算费用
数据与训练
- 训练数据:1.5TB经过预处理的文本,转化为3500亿个唯一标记
- 语言分布:包括45种自然语言和12种编程语言,英语占比最大约30%
- 分词器:使用字节级BPE算法,词表大小为250,680
用途与限制
- 适用场景:文本生成、语言模型特征研究、下游NLP任务等
- 不适用场景:高风险环境、关键决策、生成事实性内容等
- 潜在风险:可能产生有害、歧视性或不当内容,存在事实性错误等
评估与建议
- 评估指标:困惑度、交叉熵损失等
- 考虑因素:语言、领域、人口特征等
- 使用建议:告知用户内容由AI生成,注意潜在风险,提供反馈渠道等
bloom-7b1是一个规模庞大、语言丰富的开放语言模型,为NLP研究和应用提供了宝贵资源。但使用时也需谨慎,充分考虑其局限性和潜在风险。