#公式识别

PDF-Extract-Kit - 全面高效的PDF文档内容提取工具包

PDF提取文档内容布局检测公式识别表格识别Github开源项目

PDF-Extract-Kit是一款集成多种先进技术的PDF内容提取工具包。它结合了LayoutLMv3布局分析、YOLOv8公式检测、UniMERNet公式识别、StructEqTable表格识别和PaddleOCR文字识别等功能,能够准确高效地提取各类PDF文档中的结构化内容。该工具适用于学术论文、教科书、研究报告和财务报表等多种文档类型,即使面对扫描质量欠佳或带有水印的PDF文件,也能保持稳定的提取效果。

TexTeller - 端到端公式识别模型支持多种输入格式

TexTeller公式识别OCR机器学习图像处理Github开源项目

TexTeller是一个基于TrOCR的公式识别模型，可将图像转换为LaTeX公式。该模型使用8000万对图像-公式数据训练，具备优秀的泛化能力和准确度。TexTeller支持多种输入格式，包括扫描图像、手写公式和中英文混合公式，还提供中英文印刷体OCR功能。此外，项目集成了公式检测、段落识别和Web演示界面，便于与其他项目整合。

相关文章

Article Cover

PDF-Extract-Kit: 高质量PDF内容提取的全面解决方案

Article Cover

TexTeller: 高精度图像转LaTeX公式解决方案

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号