#Donut

donut - NVIDIA开发的实时渲染框架 支持多种图形API和渲染技术
Donut实时渲染框架NVIDIA场景加载渲染通道Github开源项目
Donut是NVIDIA开发的实时渲染框架,提供可重用的渲染pass集合和场景加载系统。支持Vulkan、DirectX 12和DirectX 11等图形API,包含前向渲染、延迟渲染、时域抗锯齿等技术。可导入glTF 2.0模型和JSON场景布局文件。Donut专注于高性能渲染,适用于原型渲染器和图形应用开发,但不是完整的游戏引擎。
donut-base - Donut模型:革新文档理解的图像到文本AI技术
计算机视觉Huggingface模型深度学习Github图像到文本开源项目文档理解Donut
Donut是一种创新的文档理解模型,无需OCR即可直接从图像生成文本。它结合了Swin Transformer视觉编码器和BART文本解码器,高效处理多种文档图像。这个预训练基础模型可针对文档分类、信息提取等任务进行微调,在文档智能处理领域应用广泛。作为开源项目,Donut为AI研究和开发提供了强大的文档处理工具。
donut-base-finetuned-cord-v2 - 基于CORD数据集的直接文档理解转换模型
文档识别Donut机器视觉开源项目模型Huggingface图像转文字文档解析Github
该模型采用Swin Transformer编码器和BART解码器架构,通过CORD数据集优化,实现了直接的图像到文本转换功能。模型跳过了传统OCR步骤,直接将文档图像编码为张量表示,再解码生成文本内容,简化了文档理解流程。
donut-base-finetuned-docvqa - 基于Donut架构的无OCR文档理解与问答模型
文档理解Donut开源项目模型Huggingface文本生成图像识别Github视觉编码
基于Swin Transformer和BART架构开发的文档理解模型,通过DocVQA数据集微调。模型集成了视觉编码器和文本解码器,无需OCR技术即可直接处理文档图像并回答问题。支持发票号码识别、合同金额提取等文档问答功能,可用于多种商业文档的自动化处理。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号