项目简介:awesome-japanese-llm
“awesome-japanese-llm”项目是一个关于日本语大语言模型(LLM)的信息汇总库,主要包括相关的模型和评估基准。该项目旨在为研究人员、开发人员以及对日本语自然语言处理感兴趣的人提供便利的信息参考。
项目背景
近年来,随着人工智能技术的迅速发展,大语言模型在各种自然语言处理任务中的表现都堪称卓越。在这些模型中,专注于特定语言的训练对于提升模型在该语言环境中的表现尤为重要。日本语LLM也是如此。此项目致力于集中展示所有公开的日本语LLM模型的信息,并且在不断更新的基础上提供更为全面的数据参考。
信息来源
项目中的数据由不同领域的志愿者和研究人员收集,并引用了一些公开的学术论文和资源。尽管如此,项目方也指出项目中的信息可能并不完善。在更新和信息获取方面,项目无法保证实时的准确性和完整性。
使用须知
- 项目中的部分数据是根据猜测或用户的理解进行的,也可能存在不准确之处。
- 大部分模型都使用了开放源码许可证(比如MIT或Apache-2.0),但某些模型可能带有特定的非商业用途许可。
- 针对个人开发的模型,项目不提供具体的制作者信息,以保持简洁。
项目管理
此项目主要在GitHub上进行维护。用户可以通过GitHub Issues报告错误或提出模型添加建议,以帮助改进和扩充项目内容。
模型分类
全新学习模型
项目划分了一组由零开始训练的完整模型,以下是部分代表:
- Sarashina2-8x70B:由SB Intuitions开发,以非商业用途许可证为主。
- LLM-jp-3 172B beta1/alpha:由大规模言语模型研发中心(LLMC)发布,涵盖多种指令调优。
- PLaMo-100B-Pretrained:专业公司Preferred Elements的成果,其模型专注于红衣沙玛和其他大型语料库的预训练。
这些模型在参数规模、训练数据源及其构架上具有相对的多样性。此外,项目中还涵盖了许多其他型号按规模和适用用途分类的日本语LLM。
最后提醒
项目中一部分信息依赖于学界和业界的最新研究,因此可能会因为外界变化或新技术开发而随时更新。用户在使用这些模型时需仔细阅读相关许可协议,确保符合使用条件。最后,项目希望通过社区力量不断完善和补充数据库,欢迎所有感兴趣的研究者或开发者参与其中。