在人工智能领域,文档理解一直是一个具有挑战性的任务。传统方法通常依赖于光学字符识别(OCR)技术来提取文本信息,但这种方法在处理复杂布局、多样格式和图像噪声时往往存在局限性。为了突破这一瓶颈,阿里巴巴集团推出了mPLUG-DocOwl系列模型,开创了一种无需OCR的文档理解新范式。
mPLUG-DocOwl系列模型的发展可以追溯到2023年。最初的mPLUG-DocOwl模型于2023年7月发布,它是一个模块化的多模态大语言模型,专门用于文档理解任务。随后,研究团队不断改进和扩展这一系列模型:
mPLUG-DocOwl 1.5是该系列模型中的代表作,它采用了创新的统一结构学习框架来处理文档理解任务。这一框架使模型能够同时学习五个领域的文档结构:普通文档、表格、图表、网页和自然图像。
多粒度文本定位: mPLUG-DocOwl 1.5能够在不同粒度(单词、短语、行、块)上识别和定位文本,实现精确的理解和定位。
H-Reducer架构: 研究团队引入了H-Reducer,这是一个创新的视觉到文本模块。它使用卷积操作水平合并特征,在保持空间布局的同时减少序列长度,大大提高了处理效率。
大规模训练数据: 模型的训练依赖于两个精心策划的数据集:
mPLUG-DocOwl 1.5在10个文档理解基准测试中创下新纪录,其中包括:
这些成绩充分展示了统一结构学习范式和H-Reducer架构的有效性。
作为mPLUG-DocOwl系列的另一个亮点,TinyChart模型专注于图表理解任务。尽管只有30亿参数,TinyChart在ChartQA任务中取得了83.6的得分,超越了Gemini-Ultra(80.8)和GPT-4V(78.5)等更大规模的模型。
TinyChart的成功归功于两个创新:
为了推动文档AI领域的发展,mPLUG-DocOwl团队在多个平台上提供了在线演示:
此外,团队还开源了大量资源,包括训练数据、模型代码和预训练模型权重,为研究人员和开发者提供了宝贵的工具。