#大规模模型

serve - 提高PyTorch模型服务效率和安全性的关键技术
TorchServePyTorch模型服务安全性大规模模型Github开源项目
TorchServe是一款高效灵活的平台,用于生产环境中PyTorch模型的部署和扩展。最新版本通过默认启用的令牌授权机制和增强的模型API控制,有效预防未授权API调用和恶意代码风险。此外,该平台还支持在不同环境(包括本地、云服务及各类硬件)中快速部署模型。
agentscope - 大型模型支持的多智能体应用开发平台
AgentScope多智能体应用大规模模型分布式APIGithub开源项目
AgentScope是一个先进的多智能体平台,专为开发人员构建基于大规模模型的多智能体应用而设计。该平台易于使用,并配备全面的组件和详尽的文档,同时提供定制的容错控制和重试机制以增强应用的稳定性。其分布式架构简化了多智能体系统的开发流程,提高了开发效率。
fairscale - 强化PyTorch大规模深度学习训练的开源库
FairScalePyTorch分布式训练大规模模型高性能计算Github开源项目
FairScale是一个开源的PyTorch扩展库,旨在提升大规模深度学习模型的训练效率。它不仅增强了PyTorch的基础功能,还引入了先进的模型扩展技术。通过提供模块化组件和简洁的API,FairScale使研究人员能够更轻松地实现分布式训练,有效应对资源受限情况下的模型扩展挑战。该库在设计时特别强调了易用性、模块化和性能优化,并支持全面分片数据并行(FSDP)等多种先进扩展技术。
Knover - 基于PaddlePaddle的知识增强对话生成开源工具包
Knover对话生成知识融合PaddlePaddle大规模模型Github开源项目
Knover是一个基于PaddlePaddle的知识增强对话生成工具包,专为高效训练和推理大规模对话模型而设计。它支持Q-TOD、PLATO-KAG和PLATO-XL等多个先进项目,覆盖任务型、知识型和开放域对话领域。Knover运行于Python 3.7+和PaddlePaddle-GPU 2.4.0+环境,为研究人员和开发者提供了完整的安装指南和使用文档。
micro_diffusion - 低成本训练大规模扩散模型的开源方案
diffusion models模型训练大规模模型低成本开源Github开源项目
micro_diffusion是一个开源项目,旨在提供低成本训练大规模扩散模型的方法。该项目计划发布完整训练代码和模型检查点,为研究人员和AI爱好者提供实验资源。通过降低研究门槛,micro_diffusion有望促进扩散模型领域的广泛参与和创新。
min-max-gpt - 为大规模GPT模型训练优化的开源框架
minGPTGPU训练深度学习分布式训练大规模模型Github开源项目
min-max-gpt是一个针对大规模GPT模型训练优化的开源项目。该框架集成了muP初始化、混合精度训练、FSDP和DeepSpeed Zero-3等技术,并提供了不依赖Hugging Face的训练选项。这使得研究人员和开发者能够更灵活地控制训练过程。项目已在8块80GB A100 GPU上成功训练20B参数模型,展现了其在大规模语言模型训练方面的能力。
ml-aim - 自回归图像模型预训练的突破性进展
AIM自回归图像模型预训练大规模模型图像特征Github开源项目
AIM项目开发了一系列采用自回归生成目标预训练的视觉模型。研究发现,图像特征的自回归预训练呈现出与大型语言模型类似的扩展性。该项目能够将模型参数轻松扩展到数十亿级,并能有效处理大规模未筛选的图像数据。AIM提供多种预训练模型,兼容PyTorch、MLX和JAX等多个框架,为计算机视觉领域的研究与应用提供了有力支持。
EasyRec - 开源深度学习推荐系统框架
EasyRec推荐系统深度学习大规模模型自动化Github开源项目
EasyRec是一个开源的推荐系统框架,集成了多种深度学习模型,用于候选生成、评分和多任务学习等推荐任务。该框架支持多种运行平台和数据输入方式,提供简单配置、智能功能和丰富的模型选择。EasyRec通过简化配置和超参数调优,提高了高性能模型的生成效率。它还支持大规模部署、自定义开发和快速向量检索,适用于多种推荐场景。
MultiModal_BigModels_Survey - 大规模多模态预训练模型综合调研
多模态预训练模型大规模模型综述深度学习人工智能Github开源项目
这个项目提供了大规模多模态预训练模型的全面调研。内容包括发展历程、关键技术、代表性模型和应用场景。调研分析了模型架构、预训练策略和下游任务等研究热点,并探讨了未来方向。这份资料可为多模态人工智能研究和开发提供参考。
Hermes-3-Llama-3.1-405B - 开源大模型提升对话推理与功能调用能力
语言模型Llama-3Huggingface模型大规模模型人工智能GithubHermes 3开源项目
Hermes-3-Llama-3.1-405B是Nous Research基于Llama-3.1 405B进行全参数微调的开源大语言模型。该模型在对话、推理、角色扮演等方面能力显著提升,采用ChatML格式,支持系统提示词和函数调用。Hermes-3在多项基准测试中表现优异,可应用于广泛的通用任务场景。
Kolors-diffusers - 基于扩散模型的高质量文本到图像生成技术
KolorsHuggingface模型大规模模型Github文生图开源项目自然语言处理AI绘画
Kolors是一个基于潜在扩散技术的大规模文本到图像生成模型。该模型在视觉质量、复杂语义理解和中英文字符渲染方面表现优异,支持中英文输入并擅长处理中文内容。Kolors面向学术研究开源,同时为商业使用提供申请渠道,旨在促进文本到图像生成技术的开放发展。