gpt-neo
GPT-Neo项目在mesh-tensorflow库的支持下,开发出了类似于GPT-3的高级模型与数据并行技术。项目支持在TPU及GPU上进行高效训练与推理,并集成了局部注意力、线性注意力和多专家系统等先进技术,能有效处理大规模参数模型。GPT-Neo还提供了多项模型评估功能,专注于语言和科学推理,拓宽了其在自然语言处理应用中的领域。
TinyStories-33M
该模型以TinyStories数据集为基础,采用GPT-Neo架构进行训练,可通过API简便生成文本,广泛应用于自然语言处理任务。