#GPT-NeoX
mergekit - 合并预训练语言模型的工具
mergekitHugging Face模型融合LlamaGPT-NeoXGithub开源项目
MergeKit是一款合并预训练语言模型的工具,支持Llama、Mistral、GPT-NeoX等多种模型。该工具采用先进的方法,在资源有限的情况下执行复杂的合并操作。MergeKit可以在CPU或最低8GB VRAM环境下运行,支持多种合并算法,如线性插值、任务算术、TIES等。还提供图形用户界面并集成到Hugging Face Spaces,简化了模型合并流程。
lm-evaluation-harness - 统一测试生成式语言模型的多任务评估框架
Language Model Evaluation HarnessOpen LLM LeaderboardGPT-NeoXHugging FacevLLMGithub开源项目
该项目提供统一框架,用于评估生成式语言模型,通过60多个标准学术基准和数百个子任务实现多样化测试。更新包括新的Open LLM Leaderboard任务、内部重构、基于配置的任务创建、Jinja2提示设计支持等高级配置选项,旨在简化和优化模型评估。支持快速高效推理、商业API、本地模型和基准测试。被广泛应用于机构如NVIDIA、Cohere、BigScience等,也支撑了🤗 Hugging Face的Open LLM Leaderboard。
gpt-neox - 大规模语言模型训练库,支持多系统和硬件环境
GPT-NeoXEleutherAIDeepSpeedMegatron Language ModelFlash AttentionGithub开源项目
GPT-NeoX是EleutherAI开发的库,专注于在GPU上训练大规模语言模型。它基于NVIDIA的Megatron,并结合了DeepSpeed技术,提供前沿的架构创新和优化,支持多种系统和硬件环境。广泛应用于学术界、工业界和政府实验室,支持AWS、CoreWeave、ORNL Summit等多个平台。主要功能包括分布式训练、3D并行、旋转和嵌入技术,以及与Hugging Face等开源库的无缝集成。
DeeperSpeed - EleutherAI定制的DeepSpeed分支加速框架
DeepSpeedDeeperSpeedGPT-NeoXEleutherAI深度学习框架Github开源项目
DeeperSpeed是DeepSpeed库的分支,专为EleutherAI的GPT-NeoX项目优化。该项目提供两个版本:1.0版保留了训练GPT-NeoX-20B和Pythia Suite所用的稳定版本,2.0版则基于最新DeepSpeed构建并持续更新。DeeperSpeed通过优化训练流程,提高了大型语言模型的开发效率。
japanese-gpt-neox-small - 日本GPT-NeoX小型模型,兼容Huggingface加载
前缀微调NVIDIA日语HuggingfaceGithub开源项目模型GPT-NeoX文本生成
本项目提供了一个小型的日本GPT-NeoX模型,基于EleutherAI/gpt-neox代码进行训练。该模型使用Japanese CC-100、Japanese C4和Japanese Wikipedia数据集进行训练,优化语言模型目标。可通过Huggingface的GPT-NeoX无缝加载,模型结构包括12层、768隐藏单元,支持基于sentencepiece的分词。此外,还提供前缀调优权重文件,可以用于后接表情符号的句子生成。经过验证,该模型兼容NVIDIA FasterTransformer 5.1进行推理。
pythia-1.4b - 促进可解释性研究的大型语言模型工具集 提供多个训练阶段检查点
模型大型语言模型GithubPythia开源项目Huggingface机器学习GPT-NeoX自然语言处理
Pythia-1.4B是EleutherAI开发的大型语言模型,作为Pythia模型套件的一部分,拥有12亿参数规模。该模型在Pile数据集上训练,提供143个中间检查点,便于研究模型训练过程中的行为变化。Pythia-1.4B基于GPT-NeoX框架,采用Apache 2.0许可证。这个模型主要用于语言模型可解释性研究,不适合直接用作商业产品。研究人员可利用Pythia-1.4B及其检查点进行科学实验,探索大型语言模型的功能和局限性。
open-calm-small - 高效日语Transformer模型,探索OpenCALM-Small的关键特性
CyberAgent日本语GPT-NeoXHuggingfaceGithub开源项目模型OpenCALM语言模型
OpenCALM-Small是由CyberAgent, Inc.开发的小型日语语言模型,以160M参数提供高效的语言生成。基于Transformer架构,它在开源库GPT-NeoX上运行,并支持多样化的生成配置。该模型使用来自日本维基百科和常见抓取数据的精选训练数据集,为高质量日语内容生成奠定基础,是开发者处理日语自然语言任务的理想选择之一。
japanese-gpt-neox-3.6b - 基于GPT-NeoX架构的36亿参数日语大语言模型
GPT-NeoX日语预训练语言模型Github深度学习模型自然语言处理Huggingface开源项目
japanese-gpt-neox-3.6b是一个基于GPT-NeoX架构的日语大语言模型,拥有36亿参数。该模型在超过3125亿个日语语料库tokens上训练,包括CC-100、C4和维基百科数据。模型采用36层、2816隐藏层的transformer架构,验证困惑度为8.68。使用sentencepiece分词器,词表大小32,000,支持UTF-8字节分解。模型已开源并提供训练数据和使用文档。
相关文章