granite-8b-code-base-4k - 多语言代码处理和优化的开源模型

Granite-8B-Code-Base-4K 项目介绍

项目概述

Granite-8B-Code-Base-4K 是一个专门为代码生成任务设计的解码器模型。例如，它可以用于代码生成、代码解释、代码修复等。该模型通过两个阶段的训练策略从头开始训练。在第一个阶段，模型在 4 万亿个来自116种编程语言的token上进行训练，这确保了它对编程语言和语法有全面的理解。在第二阶段，模型在5000亿个高质量的代码和自然语言数据混合上进行训练，以提高模型的推理能力和跟随指令的能力。

开发者： IBM 研究院
GitHub 代码库： ibm-granite/granite-code-models
论文： Granite Code Models: A Family of Open Foundation Models for Code Intelligence
发布日期： 2024年5月6日
许可： Apache 2.0

使用说明

预期用途

在软件工程生产力中，使用大语言模型（LLM）的显著企业应用案例包括代码生成、代码解释、代码修正、生成单元测试、生成文档、处理技术债务问题、漏洞检测、代码翻译等。所有的 Granite Code Base 模型，包括这个8B参数的模型，都能够处理这些任务，因为它们在来自116种编程语言的大量代码数据上进行训练。

使用示例

以下是如何使用 Granite-8B-Code-Base-4K 模型的简单示例：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # 或 "cpu"
model_path = "ibm-granite/granite-8b-code-base-4k"
tokenizer = AutoTokenizer.from_pretrained(model_path)
# 如果在CPU上运行，可以去掉device_map
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()
# 更改输入文本按需
input_text = "def generate():"
# 将文本标记化
input_tokens = tokenizer(input_text, return_tensors="pt")
# 将标记化后的输入发送到设备
for i in input_tokens:
    input_tokens[i] = input_tokens[i].to(device)
# 生成输出标记
output = model.generate(**input_tokens)
# 将输出标记解码为文本
output = tokenizer.batch_decode(output)
# 打印输出
for i in output:
    print(i)

训练数据

数据收集和过滤: 预训练代码数据来源于多个公开可用的数据集（如 GitHub Code Clean, Starcoder data），并从 GitHub 额外的公共代码库和问题中获取。我们保留了116种编程语言。经过语言过滤后，还删除了低质量代码。
精准与模糊去重: 我们采用了一种激进的去重策略，包括精确和模糊去重，以移除（接近）相同代码内容的文档。
HAP、PII、恶意软件过滤: 我们应用了 HAP 内容过滤器，以减少模型生成仇恨、辱骂或不雅语言的可能性。还确保通过将 PII 内容（如姓名、电子邮件地址、密钥、密码）替换为相应标记（如 ⟨NAME⟩, ⟨EMAIL⟩, ⟨KEY⟩, ⟨PASSWORD⟩）来清除个人可识别信息。此外，使用ClamAV对所有数据集进行扫描，以识别并删除源代码中的恶意软件实例。
自然语言数据集: 除了收集代码数据用于模型训练外，我们还策划了若干公共可用的高质量自然语言数据集，以提高模型的语言理解和数学推理能力。与代码数据不同，我们没有对这些数据集进行去重。

基础设施

我们使用IBM的超级计算集群Vela和Blue Vela训练Granite Code模型，两者分别配备了NVIDIA A100和H100 GPU。这些集群为模型训练提供了一个可扩展和高效的平台。

道德考量和局限性

使用大型语言模型（LLM）涉及人们必须意识到的风险和道德考虑。关于代码生成，建议不要完全依赖于特定代码模型作出关键决策或提供重要信息，因为生成的代码不保证按预期工作。Granite-8B-Code-Base-4K 模型在这点上也不例外。虽然该模型适用于多种代码相关的任务，但未经过任何安全校正，这可能会导致产生问题输出。此外，尚不确定相较较小模型是否会因为其较小的尺寸和记忆容量而在生成情境中表现出更大的幻想可能性，如逐字复制来自训练数据集的源代码。此方面仍是当前的一个活跃研究领域，我们期待在该领域进行更多严格探索、理解和缓解措施。关于伦理，所有大型语言模型的潜在风险是其恶意利用。我们敦促社区以道德意图和负责任的方式使用 Granite-8B-Code-Base-4K 模型。