nvidia_-_Mistral-NeMo-Minitron-8B-Base-gguf 项目介绍
项目概述
NVIDIA 的 Mistral-NeMo-Minitron-8B-Base 是一个大型语言模型,用于自然语言生成任务。这个模型是通过剪枝和蒸馏技术从 Mistral-NeMo 12B 中提取和优化而来,专注于文本到文本的转换任务。它运用了最新的技术,包括组查询注意力(GQA)和旋转位置嵌入(RoPE)等先进的架构设计。
模型构建
Mistral-NeMo-Minitron-8B-Base 模型的嵌入尺寸为 4096,具有 32 个注意力头和一个中间层尺寸为 11520 的全连接层,共包含 40 层结构。其背后的架构类型是 Transformer 解码器,用于自回归语言建模。
数据集与训练
该模型训练使用了 3800 亿个标记符,数据集包含了英文及多语言文本,涵盖网页、对话、文章等各种文档类型,涉及法律、数学、科学、金融等多种领域。训练数据的收集和标注是通过自动化完成的。
模型性能
- 语言理解性能: 在多任务语言理解任务中,5-shot 测试结果为 69.5。
- 代码生成性能: 在 MBPP 测试中获得 43.77 的分数。
- 零样本评估: 在 HellaSwag、Winogrande 等多个数据集上的表现也十分出色。
推理与软件集成
对于推理部分,该模型可以运行在 TensorRT-LLM 引擎上,适合在 NVIDIA A100 硬件上进行测试,支持 Linux 操作系统。开发者可以通过指定的代码进行推理来生成文本输出。
限制与伦理考量
需注意,这个模型可能含有从互联网抓取的数据中继承的偏见、毒性语言等不当内容。这可能导致模型输出不够准确或不符合社会期望。为保障 AI 的可信性,NVIDIA 提倡开发者在使用模型时结合具体的行业要求和用例,以防止潜在的滥用。
继续阅读与参考
有关模型更详细的技术细节和使用指南,请参考 相关技术报告 以及 NVIDIA 的开放模型许可协议 中的信息。
除了模型信息外,模型的量化版本也提供多种选择,每种版本具有不同的量化方法和大小,可以根据需求选择使用。更多模型的请求可以通过 Richard Erkhov 的 Github 页面 提出。
如果你对模型安全性或其他问题有疑虑,请通过 NVIDIA 安全漏洞提交平台 进行报告。