surya

开源多语言文档识别与分析工具

Surya是一个开源文档OCR工具包，支持90多种语言的文本识别，性能可与云服务媲美。它提供行级文本检测、布局分析和阅读顺序检测等功能，适用于多种文档类型。Surya不仅识别文本，还能分析文档结构，为文档解析提供全面解决方案。该工具适合研究和个人使用，商业使用需注意相关许可条件。

访问官网

Github

文档

介绍相关项目

tesseract.js - 多语言的从图像中识别文字的JavaScript库

GithubJavaScript库OCR引擎Tesseract.jsWebAssembly图像识别开源项目

Tesseract.js 是一个功能强大的 JavaScript 库，支持从图像中提取多种语言的文字，适用于浏览器和 Node.js 环境。它利用 WebAssembly 技术封装了 Tesseract OCR 引擎，支持通过 CDN、Webpack 或本地安装进行集成。该库具备低内存占用、快速处理、多种图像格式支持和并行处理功能。最新版本优化了文件大小和运行时性能，兼容多平台，适用于文档扫描和实时视频识别等应用。

Papermerge DMS - 为扫描文档设计的开源OCR文档管理系统

AI工具OCR技术Papermerge开源软件数字档案文档管理系统

Papermerge DMS是一款开源文档管理系统，专为扫描文档和数字档案设计。系统集成OCR技术，支持PDF、TIFF、JPEG等格式文件处理。它提供多用户支持、全文搜索、文档版本控制等功能，界面现代直观。作为数字化解决方案，Papermerge DMS有助于减少纸质文档，提升业务效率。系统还提供REST API，便于根据需求进行扩展。

myGPTReader - 支持网页、文档和视频内容智能阅读的AI阅读助手

AI阅读助手GithubmyGPTReader内容摘要多语言支持开源项目热门语音聊天

myGPTReader是一个革新性的AI阅读助手，支持网页、文档和视频内容的智能阅读。用户可以通过语音与其交流，进行多语种对话，有效提高外语水平。此外，它还集成了最新热点新闻的自动摘要功能，使得用户能迅速掌握当下热门话题。加入超过5000名成员的Slack频道，免费体验myGPTReader的全部功能。

OpenScan - 注重隐私的开源文档扫描应用

GithubPDF转换开源应用开源项目文档扫描移动办公隐私保护

OpenScan是一款注重隐私的开源文档扫描应用，支持将纸质文档、笔记、名片和收据转换为PDF或JPG文件。应用无广告、不收集数据，提供简单而强大的裁剪功能。无论是提高办公效率还是学习生产力，OpenScan都能满足快速扫描、保存和分享文档的需求。适用于办公人员扫描合同文件、学生记录讲义笔记、商务人士整理名片信息等多种场景。

super-rag - 提升AI应用性能的高效RAG流水线工具

GithubREST APISuper-Rag云端API人工智能开源项目文档处理

Super-Rag为AI应用提供了支持多种文档格式与向量数据库的高效RAG流水线。包含生产就绪REST API，支持自定义数据分割，多种编码模式，及代码解释器模式，适于解决计算性问题与答疑，并通过唯一ID高效进行会话管理。

unstructured-inference - 非结构化数据布局解析工具支持多种检测模型

AI模型Githubunstructured布局解析开源工具开源项目文档处理

unstructured-inference 是一个专注于文档布局分析的开源项目。它能够从各种文件中提取文档结构和文本内容，适用于需要高效文档处理的场景。该项目提供多种检测模型，如 Detectron2 和 YOLOX，可通过 API 与 unstructured 包集成。它支持自定义模型，为开发者提供了灵活的布局解析解决方案。

arxiv-translator - arXiv论文自动中文翻译与浏览平台

GithubarXiv人工智能大语言模型开源项目自然语言处理论文翻译

arxiv-translator是一个开源项目，旨在为用户提供arXiv论文的中文翻译网页。该项目利用nougat OCR技术提取PDF文本并自动翻译，提供包含arXiv ID、标题和链接的论文列表。涵盖机器学习、人工智能等领域的最新研究，方便研究人员和学生快速了解学术前沿。

LaTeX-OCR - 智能数学公式图像转LaTeX代码工具

GithubLaTeX识别pix2tex图像处理开源项目数学公式机器学习

这是一个基于机器学习的系统，可以将数学公式图像转换为相应的LaTeX代码。系统支持命令行工具、图形用户界面、API和Python集成，提供多种使用方式。适用于不同分辨率的图像，自动优化处理以提高识别性能。还包括模型训练指南和数据集生成工具，适用于科研和教育用途。

docling - 高效的多格式文档解析和转换工具

CLI工具DoclingGithubOCR支持PDF解析开源项目文档解析

Docling是一个多功能的文档解析工具，支持解析PDF、DOCX、PPTX等常见格式，并可输出为Markdown和JSON格式。其PDF高级功能涵盖页面布局分析、阅读顺序和表格结构识别。工具提供统一的DoclingDocument表示格式，支持与LlamaIndex和LangChain的集成，适合信息检索和问答应用。此外，它支持扫描PDF的OCR，并提供便捷的命令行工具。即将支持方程、代码和元数据的提取。安装简单，兼容多平台和多架构。详情请参阅在线文档。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com