internlm2-1_8b - 18亿参数开源语言模型支持20万字超长上下文输入

InternLM2-1.8B项目介绍

项目概述

InternLM2-1.8B是第二代浦语大模型系列的18亿参数版本。该项目提供了三种不同的模型版本,以满足不同的应用需求:

InternLM2-1.8B: 基础模型,具有高质量和高适应性,适合进行下游任务的深度适配。
InternLM2-Chat-1.8B-SFT: 在基础模型上进行监督微调(SFT)后得到的对话模型。
InternLM2-Chat-1.8B: 在SFT模型基础上通过在线RLHF进一步优化的对话模型,具有更好的指令跟随能力和聊天体验。

技术特点

InternLM2-1.8B模型具有以下突出特点:

超长上下文支持: 能够有效处理长达20万字的输入,在长文本任务中表现出色。
全面性能提升: 相比上一代模型,在推理、数学、编程等多个能力维度都有显著进步。

性能评测

在多个权威基准测试中,InternLM2-1.8B系列模型展现了不俗的表现:

在MMLU测试中,基础模型和SFT模型分别达到46.9和47.1的分数。
在AGIEval评测中,SFT模型得分38.8,高于基础模型的33.4。
在编程能力测试HumanEval中,SFT模型得分32.9,优于基础模型的25.0。

这些评测结果显示了InternLM2-1.8B模型在通用知识、推理能力和编程技能等方面的综合实力。

使用方法

研究者和开发者可以通过Transformers库轻松加载和使用InternLM2-1.8B模型。以下是一个简单的示例代码:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("internlm/internlm2-1_8b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("internlm/internlm2-1_8b", torch_dtype=torch.float16, trust_remote_code=True).cuda()

inputs = tokenizer(["来到美丽的大自然"], return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_length=128, top_p=0.8, temperature=0.8, do_sample=True)
print(tokenizer.decode(output[0], skip_special_tokens=True))