aya-expanse-8b - Aya Expanse 8B开源多语言模型研究成果

Aya Expanse 8B 项目介绍

项目概览

Aya Expanse 8B 是一款多语言高级能力的开源模型，由 Cohere For AI 开发。该模型通过一年的专注研究，结合了高性能预训练模型系列（如 Command family），在数据套利、多语言偏好训练、安全调优和模型合并等领域进行了深入探索。最终，这款强大的多语言大语言模型正式推出。

本次介绍的 Aya Expanse 8B 是 8 亿参数版本，另有 32 亿参数版本可供选择。其支持包括中文在内的23种语言，致力于多语言文本生成任务。

主要功能

多语言支持：支持阿拉伯语、中文、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语共23种语言。
强大的生成能力：Aya Expanse 8B 采用优化的自回归变压器架构，具备卓越的文本生成能力。
丰富的使用场景：模型可用于多语言写作助手、问答系统等多种应用场景。

模型实现与性能

如何使用Aya Expanse

用户可以通过 transformers 库轻松加载并使用 Aya Expanse 8B。以下是一个基本用例：

from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "CohereForAI/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# 格式化信息并进行生成
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")

gen_tokens = model.generate(
    input_ids, 
    max_new_tokens=100, 
    do_sample=True, 
    temperature=0.3,
    )

gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)

此外，Cohere提供了详细的Fine-Tuning指南和多种社区贡献的使用案例，帮助用户更好地掌握模型的使用。

模型评价

Aya Expanse 8B 在多项测试中表现优异，与其他同类模型如 Gemma 2 9B、Llama 3.1 8B 等对比测试中取得了很好的胜率。测试基于 Aya Evaluation Suite 数据集及 m-ArenaHard 数据集进行，显示了该模型在多语言支持下的强大潜力。

项目联系与许可

有关 Aya Expanse 8B 的进一步问题，用户可以通过 info@for.ai 取得联系。模型通过 CC-BY-NC 协议发布，仅限非商业用途，并附带适用的使用政策。更多细节参见发布的使用条款。