#GPT-Neo
gpt-neo - 使用 mesh-tensorflow 库的模型并行 GPT-2 和 GPT-3 样式模型的实现
Github开源项目预训练模型模型训练GPT-3GPT-NeoTPU支持
GPT-Neo项目在mesh-tensorflow库的支持下,开发出了类似于GPT-3的高级模型与数据并行技术。项目支持在TPU及GPU上进行高效训练与推理,并集成了局部注意力、线性注意力和多专家系统等先进技术,能有效处理大规模参数模型。GPT-Neo还提供了多项模型评估功能,专注于语言和科学推理,拓宽了其在自然语言处理应用中的领域。
TinyStories-33M - 基于GPT-Neo架构的开源文本生成模型
Github开源项目文本生成模型训练模型数据集HuggingfaceGPT-NeoTinyStories
该模型以TinyStories数据集为基础,采用GPT-Neo架构进行训练,可通过API简便生成文本,广泛应用于自然语言处理任务。