#Donut

donut - NVIDIA开发的实时渲染框架支持多种图形API和渲染技术

Donut实时渲染框架NVIDIA场景加载渲染通道Github开源项目

Donut是NVIDIA开发的实时渲染框架，提供可重用的渲染pass集合和场景加载系统。支持Vulkan、DirectX 12和DirectX 11等图形API，包含前向渲染、延迟渲染、时域抗锯齿等技术。可导入glTF 2.0模型和JSON场景布局文件。Donut专注于高性能渲染，适用于原型渲染器和图形应用开发，但不是完整的游戏引擎。

donut-base - Donut模型：革新文档理解的图像到文本AI技术

计算机视觉Huggingface模型深度学习Github图像到文本开源项目文档理解Donut

Donut是一种创新的文档理解模型，无需OCR即可直接从图像生成文本。它结合了Swin Transformer视觉编码器和BART文本解码器，高效处理多种文档图像。这个预训练基础模型可针对文档分类、信息提取等任务进行微调，在文档智能处理领域应用广泛。作为开源项目，Donut为AI研究和开发提供了强大的文档处理工具。

donut-base-finetuned-cord-v2 - 基于CORD数据集的直接文档理解转换模型

文档识别Donut机器视觉开源项目模型Huggingface图像转文字文档解析Github

该模型采用Swin Transformer编码器和BART解码器架构，通过CORD数据集优化，实现了直接的图像到文本转换功能。模型跳过了传统OCR步骤，直接将文档图像编码为张量表示，再解码生成文本内容，简化了文档理解流程。

donut-base-finetuned-docvqa - 基于Donut架构的无OCR文档理解与问答模型

文档理解Donut开源项目模型Huggingface文本生成图像识别Github视觉编码

基于Swin Transformer和BART架构开发的文档理解模型，通过DocVQA数据集微调。模型集成了视觉编码器和文本解码器，无需OCR技术即可直接处理文档图像并回答问题。支持发票号码识别、合同金额提取等文档问答功能，可用于多种商业文档的自动化处理。

相关文章

Article Cover

Donut: NVIDIA的实时渲染框架

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号