项目介绍:Aya-23-35B
项目背景
Aya-23-35B是一个多语言的大型语言模型,由Cohere For AI和Cohere联合开发。该项目提供了一种高度先进的多语言能力模型,以支持全球范围内的研究和应用。该模型通过结合高性能的预训练模型和最新发布的Aya Collection数据集,形成了一个强大的多语言模型,支持23种语言。
模型特色
Aya-23-35B以开放权重的方式进行发布,经过指令微调(Instruction Fine-Tuned),能有效理解和处理多种语言任务。在其开发过程中,特别注重模型的多语言性能优化,涵盖了包括中文(简体和繁体)、阿拉伯语、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印度尼西亚语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语在内的23种语言。
使用指南
Aya-23-35B模型可以通过安装特定的代码库来使用。用户需要从源代码库中安装transformers库,然后通过示例代码导入模型和分词器进行文本生成任务的测试。这款模型尤其适合需要生成自然语言文本的自动化任务。
示例代码
以下是一个简单使用模型进行土耳其语信件生成的代码片段:
# pip install 'git+https://github.com/huggingface/transformers.git'
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereForAI/aya-23-35B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
模型详细信息
Aya-23-35B是一个35亿参数的自回归语言模型,采用优化的transformer架构,支持输入文本并生成文本。该模型的上下文长度为8192,在进行人类指令的微调后,能够更好地理解和响应用户需求。
模型评估与性能
Aya-23-35B的多语言能力经过严格的基准测试,显示出优于许多其他多语言模型的表现。有关更多详细技术信息和评估细节,可以参考项目的技术报告。
使用条款与许可
Aya-23-35B模型的发布旨在促进社区基础的研究,模型受到CC-BY-NC许可证的约束,并须遵守C4AI的可接受使用政策。如果研究者希望使用该模型,他们需要确认仅用于非商业用途。
本模型的一大亮点是其开放的研究便利性,研究人员无需费用就能获取模型权重,从而进行更多的实验和创新。
尝试与反馈
使用者可以在Cohere的试玩平台上亲身体验Aya-23-35B的实际效果,或通过Hugging Face上的专用空间进行试用和交流。
如果研究者在使用过程中有任何问题或反馈,可以通过提供的联系方式与项目团队取得联系。