Meta-Llama-3-8B - Meta发布的新一代大规模语言模型Llama 3

根据提供的信息,以下是关于Meta-Llama-3-8B项目的详细介绍:

Meta-Llama-3-8B项目介绍

Meta-Llama-3-8B是由Meta公司开发并发布的大型语言模型(LLM)系列之一。这个项目是Meta Llama 3家族模型中的一员,专门为对话场景进行了优化,在许多常见行业基准测试中表现优异。

模型概述

Meta-Llama-3-8B是一个拥有80亿参数的自回归语言模型,采用优化后的Transformer架构。它既有预训练版本,也有经过指令微调的版本。指令微调版本使用了监督微调(SFT)和基于人类反馈的强化学习(RLHF)技术,以提高模型的有用性和安全性。

该模型的主要特点包括:

参数规模:80亿
上下文长度:8192个token
使用分组查询注意力(GQA)机制,提高推理效率
训练数据:超过15万亿个token的公开在线数据
知识截止日期:2023年3月

预期用途

Meta-Llama-3-8B主要面向英语的商业和研究用途。其中:

指令微调版本适用于助手式对话场景
预训练版本可适应各种自然语言生成任务

该模型不应用于违反法律法规的用途,也不应用于Meta可接受使用政策和Llama 3社区许可禁止的其他方式。

使用方法

Meta-Llama-3-8B可以通过两种方式使用:

使用Transformers库:

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B"

pipeline = transformers.pipeline(
    "text-generation", 
    model=model_id, 
    model_kwargs={"torch_dtype": torch.bfloat16}, 
    device_map="auto"
)
pipeline("Hey how are you doing today?")