Aya Expanse 8B 项目介绍
项目概览
Aya Expanse 8B 是一款多语言高级能力的开源模型,由 Cohere For AI 开发。该模型通过一年的专注研究,结合了高性能预训练模型系列(如 Command family),在数据套利、多语言偏好训练、安全调优和模型合并等领域进行了深入探索。最终,这款强大的多语言大语言模型正式推出。
本次介绍的 Aya Expanse 8B 是 8 亿参数版本,另有 32 亿参数版本可供选择。其支持包括中文在内的23种语言,致力于多语言文本生成任务。
主要功能
- 多语言支持:支持阿拉伯语、中文、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语共23种语言。
- 强大的生成能力:Aya Expanse 8B 采用优化的自回归变压器架构,具备卓越的文本生成能力。
- 丰富的使用场景:模型可用于多语言写作助手、问答系统等多种应用场景。
模型实现与性能
如何使用Aya Expanse
用户可以通过 transformers 库轻松加载并使用 Aya Expanse 8B。以下是一个基本用例:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereForAI/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# 格式化信息并进行生成
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
此外,Cohere提供了详细的Fine-Tuning指南和多种社区贡献的使用案例,帮助用户更好地掌握模型的使用。
模型评价
Aya Expanse 8B 在多项测试中表现优异,与其他同类模型如 Gemma 2 9B、Llama 3.1 8B 等对比测试中取得了很好的胜率。测试基于 Aya Evaluation Suite 数据集及 m-ArenaHard 数据集进行,显示了该模型在多语言支持下的强大潜力。
项目联系与许可
有关 Aya Expanse 8B 的进一步问题,用户可以通过 info@for.ai 取得联系。模型通过 CC-BY-NC 协议发布,仅限非商业用途,并附带适用的使用政策。更多细节参见发布的 使用条款。