#GPT-NeoX

mergekit - 合并预训练语言模型的工具

mergekitHugging Face模型融合LlamaGPT-NeoXGithub开源项目

MergeKit是一款合并预训练语言模型的工具，支持Llama、Mistral、GPT-NeoX等多种模型。该工具采用先进的方法，在资源有限的情况下执行复杂的合并操作。MergeKit可以在CPU或最低8GB VRAM环境下运行，支持多种合并算法，如线性插值、任务算术、TIES等。还提供图形用户界面并集成到Hugging Face Spaces，简化了模型合并流程。

lm-evaluation-harness - 统一测试生成式语言模型的多任务评估框架

Language Model Evaluation HarnessOpen LLM LeaderboardGPT-NeoXHugging FacevLLMGithub开源项目

该项目提供统一框架，用于评估生成式语言模型，通过60多个标准学术基准和数百个子任务实现多样化测试。更新包括新的Open LLM Leaderboard任务、内部重构、基于配置的任务创建、Jinja2提示设计支持等高级配置选项，旨在简化和优化模型评估。支持快速高效推理、商业API、本地模型和基准测试。被广泛应用于机构如NVIDIA、Cohere、BigScience等，也支撑了🤗 Hugging Face的Open LLM Leaderboard。

gpt-neox - 大规模语言模型训练库，支持多系统和硬件环境

GPT-NeoXEleutherAIDeepSpeedMegatron Language ModelFlash AttentionGithub开源项目

GPT-NeoX是EleutherAI开发的库，专注于在GPU上训练大规模语言模型。它基于NVIDIA的Megatron，并结合了DeepSpeed技术，提供前沿的架构创新和优化，支持多种系统和硬件环境。广泛应用于学术界、工业界和政府实验室，支持AWS、CoreWeave、ORNL Summit等多个平台。主要功能包括分布式训练、3D并行、旋转和嵌入技术，以及与Hugging Face等开源库的无缝集成。

DeeperSpeed - EleutherAI定制的DeepSpeed分支加速框架

DeepSpeedDeeperSpeedGPT-NeoXEleutherAI深度学习框架Github开源项目

DeeperSpeed是DeepSpeed库的分支，专为EleutherAI的GPT-NeoX项目优化。该项目提供两个版本：1.0版保留了训练GPT-NeoX-20B和Pythia Suite所用的稳定版本，2.0版则基于最新DeepSpeed构建并持续更新。DeeperSpeed通过优化训练流程，提高了大型语言模型的开发效率。

japanese-gpt-neox-small - 日本GPT-NeoX小型模型，兼容Huggingface加载

前缀微调NVIDIA日语HuggingfaceGithub开源项目模型GPT-NeoX文本生成

本项目提供了一个小型的日本GPT-NeoX模型，基于EleutherAI/gpt-neox代码进行训练。该模型使用Japanese CC-100、Japanese C4和Japanese Wikipedia数据集进行训练，优化语言模型目标。可通过Huggingface的GPT-NeoX无缝加载，模型结构包括12层、768隐藏单元，支持基于sentencepiece的分词。此外，还提供前缀调优权重文件，可以用于后接表情符号的句子生成。经过验证，该模型兼容NVIDIA FasterTransformer 5.1进行推理。

pythia-1.4b - 促进可解释性研究的大型语言模型工具集提供多个训练阶段检查点

模型大型语言模型GithubPythia开源项目Huggingface机器学习GPT-NeoX自然语言处理

Pythia-1.4B是EleutherAI开发的大型语言模型，作为Pythia模型套件的一部分，拥有12亿参数规模。该模型在Pile数据集上训练，提供143个中间检查点，便于研究模型训练过程中的行为变化。Pythia-1.4B基于GPT-NeoX框架，采用Apache 2.0许可证。这个模型主要用于语言模型可解释性研究，不适合直接用作商业产品。研究人员可利用Pythia-1.4B及其检查点进行科学实验，探索大型语言模型的功能和局限性。

open-calm-small - 高效日语Transformer模型，探索OpenCALM-Small的关键特性

CyberAgent日本语GPT-NeoXHuggingfaceGithub开源项目模型OpenCALM语言模型

OpenCALM-Small是由CyberAgent, Inc.开发的小型日语语言模型，以160M参数提供高效的语言生成。基于Transformer架构，它在开源库GPT-NeoX上运行，并支持多样化的生成配置。该模型使用来自日本维基百科和常见抓取数据的精选训练数据集，为高质量日语内容生成奠定基础，是开发者处理日语自然语言任务的理想选择之一。

japanese-gpt-neox-3.6b - 基于GPT-NeoX架构的36亿参数日语大语言模型

GPT-NeoX日语预训练语言模型Github深度学习模型自然语言处理Huggingface开源项目

japanese-gpt-neox-3.6b是一个基于GPT-NeoX架构的日语大语言模型，拥有36亿参数。该模型在超过3125亿个日语语料库tokens上训练，包括CC-100、C4和维基百科数据。模型采用36层、2816隐藏层的transformer架构，验证困惑度为8.68。使用sentencepiece分词器，词表大小32,000，支持UTF-8字节分解。模型已开源并提供训练数据和使用文档。

相关文章

Article Cover

MergeKit: 一个强大的预训练语言模型合并工具包

Article Cover

DeeperSpeed：为GPT-NeoX定制的高效分布式深度学习训练库

Article Cover

MergeKit入门指南 - 强大的预训练语言模型合并工具包

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号