Janus-1.3B项目介绍
简介
Janus 是一个创新的自回归框架,致力于统一多模态理解和生成。它通过将视觉编码解耦为独立路径,克服了以往方法的限制,同时仍然使用统一的transformer体系结构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还提高了框架的灵活性。Janus 超越了之前的统一模型,并且能够匹配或超越任务特定模型的性能。Janus 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。
模型概述
Janus 是一个统一的理解和生成大型多模态语言模型(MLLM),通过解耦视觉编码实现多模态理解和生成。Janus 基于DeepSeek-LLM-1.3b-base构建,该模型学习于大约5000亿个文本标记的语料库。在多模态理解方面,它使用 SigLIP-L 作为视觉编码器,支持384 x 384图像输入。在图像生成方面,Janus 使用来自这里的tokenizer,降采样率为16。
快速开始
有关详细的使用说明,请参阅 Github 仓库。
许可信息
此代码仓库根据MIT 许可授权。使用 Janus 模型受 DeepSeek 模型许可的约束。