#模型架构
MixtralKit
MixtralKit是一款高效的模型推理工具包,支持多种评估工具和资源。采用MoE架构提升性能和效率,Mixtral-8x7B模型表现卓越,并附有详细的安装和推理指南,方便研究人员和开发者快速上手。
onnxruntime-genai
onnxruntime-genai是一个用于设备端高效运行大型语言模型的API。它支持Gemma、Llama、Mistral等多种模型架构,提供多语言接口。该项目实现了生成式AI的完整流程,包括预处理、推理、logits处理等。开发者可以使用generate()方法一次性生成输出或实现逐token流式输出。onnxruntime-genai为本地部署和运行LLM模型提供了简单、灵活、高性能的解决方案。
large_language_model_training_playbook
此页面提供了大规模语言模型训练的实用指南和资源,涉及模型架构选择、并行策略、模型规模、张量精度、训练超参数设定、最大化吞吐量、稳定性问题、数据处理以及软件和硬件故障调试等主题。这些开放的技巧和工具可以帮助更高效地训练大规模语言模型,并提升其性能和稳定性。
Nonstationary_Transformers
Non-stationary Transformers项目开发了新型时间序列预测方法,采用系列平稳化和去平稳注意力机制处理非平稳数据。该方法在多个基准数据集上展现出优异性能,并能有效提升现有注意力模型的预测效果。项目开源了完整代码和实验脚本,为时间序列预测研究和应用提供了重要参考。
相关文章
StableLM: Stability AI的开源大型语言模型
2 个月前
MixtralKit: 一个强大的Mixtral模型推理和评估工具包
2 个月前
GPT-2: 解析自然语言处理的革命性模型
2 个月前
ONNX Runtime generate() API: 高性能本地运行大型语言模型的解决方案
1 个月前
非平稳Transformers: 探索时间序列预测中的平稳性
1 个月前
MixtralKit入门学习资料汇总 - Mistral AI的mixtral-8x7b-32kseqlen模型推理与评估工具包
1 个月前
large_language_model_training_playbook学习资料汇总 - 大型语言模型训练技巧与资源集锦
1 个月前