#视觉编码
Janus-1.3B - 提升视觉编码的灵活性与性能的多模态框架
Github开源项目模型生成模型Huggingface多模态理解Janustransformer架构视觉编码
Janus是一种创新的自回归框架,通过解耦视觉编码提升多模态功能的灵活性和性能。该框架基于训练有素的DeepSeek-LLM-1.3b-base,处理了大约5000亿文本标记,并采用SigLIP-L视觉编码器实现高效图像处理。Janus在维持简单高效的设计下,达到甚至超越了任务特定模型的性能,预示着下一代统一多模态模型的可能性。
donut-base-finetuned-docvqa - 基于Donut架构的无OCR文档理解与问答模型
Github开源项目文本生成模型图像识别Huggingface文档理解Donut视觉编码
基于Swin Transformer和BART架构开发的文档理解模型,通过DocVQA数据集微调。模型集成了视觉编码器和文本解码器,无需OCR技术即可直接处理文档图像并回答问题。支持发票号码识别、合同金额提取等文档问答功能,可用于多种商业文档的自动化处理。