Kosmos-2.5 项目介绍
Kosmos-2.5 是一个由微软推出的多模态阅读模型,专为处理文本密集型图像而设计。这个项目通过大规模的文本密集型图像进行预训练,擅长处理两种主要的转录任务:一是生成具有空间感知的文本块,也就是说在图像中,每一段文字都会被标记出其在图像中的空间坐标;二是生成结构化的文本输出,将文字的格式和结构转换为 Markdown 格式。这种多模态的识字化能力,是通过共享的仅解码自回归变换器(Transformer)架构、任务专用的提示和灵活的文本表示方法实现的。
模型功能
Kosmos-2.5 在文本识别和图像到 Markdown 格式转换的任务中表现出色。在这两个任务中,该模型能够从图像到文档级的端对端文本识别以及将图像内的内容生成为结构化文本输出。此外,Kosmos-2.5 可以通过监督微调,适应不同提示的文本密集型图像理解任务,使之成为适用于涉及文本丰富图像的现实世界应用场景的一种通用工具。这个项目也为未来多模态大型语言模型的扩展提供了基础。
风险注意
在使用 Kosmos-2.5 进行生成任务时,存在生成 "幻觉" 的风险,即生成过程中可能会出现不准确的信息。因此,模型无法保证所有图像中的 OCR 或 Markdown 结果的准确性。
使用指南
引用指南
如果在研究中使用了 Kosmos-2.5,请参考以下引用格式:
@article{lv2023kosmos,
title={Kosmos-2.5: A multimodal literate model},
author={Lv, Tengchao and Huang, Yupan and Chen, Jingye and Cui, Lei and Ma, Shuming and Chang, Yaoyao and Huang, Shaohan and Wang, Wenhui and Dong, Li and Luo, Weiyao and others},
journal={arXiv preprint arXiv:2309.11419},
year={2023}
}
许可协议
该项目本身的内容在 MIT 许可证 下开放。也遵循 Microsoft 开源行为准则。