PhoGPT简介
PhoGPT是由VinAI Research开发的一个开源的越南语生成式预训练模型系列,包括基础预训练模型PhoGPT-4B和对话变体PhoGPT-4B-Chat。它是目前越南语NLP领域最先进的开源模型之一。
🚀 快速开始
-
从Hugging Face下载模型:
-
使用transformers库加载模型:
from transformers import AutoTokenizer, AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("vinai/PhoGPT-4B-Chat")
tokenizer = AutoTokenizer.from_pretrained("vinai/PhoGPT-4B-Chat")
- 生成文本:
prompt = "### Câu hỏi: Viết một bài thơ ngắn về Hà Nội\n### Trả lời:"
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
outputs = model.generate(input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))
📚 学习资源
- PhoGPT GitHub仓库: 官方代码、文档和示例
- PhoGPT技术报告: 详细介绍模型架构和实验结果
- Hugging Face模型页面: 在线试用和API文档
- llm-foundry文档: 用于微调PhoGPT的指南
💡 高级用法
使用vLLM进行高效推理
PhoGPT支持使用vLLM进行高效推理:
from vllm import LLM, SamplingParams
llm = LLM(model="vinai/PhoGPT-4B-Chat")
output = llm.generate("Hãy kể một câu chuyện ngắn", SamplingParams(temperature=0.7, max_tokens=100))
print(output[0].text)
量化模型
使用bitsandbytes进行8位量化:
from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = AutoModelForCausalLM.from_pretrained("vinai/PhoGPT-4B-Chat", quantization_config=quantization_config)
⚠️ 使用限制
PhoGPT在推理、编程和数学等任务上表现不佳。此外,它可能会产生有害、仇恨言论或有偏见的回应。使用时请谨慎,并注意输出可能存在事实错误。
🔗 更多资源
希望这份指南能帮助您快速上手PhoGPT,开启越南语自然语言处理的探索之旅! 如有任何问题,欢迎在GitHub仓库中提issue讨论。 🚀🇻🇳