#文档转换

Marker API: 快速准确的PDF转Markdown解决方案

2024年09月05日
Cover of Marker API: 快速准确的PDF转Markdown解决方案

Doctran:使用LLM进行高级文档转换的Python框架

2024年09月05日
Cover of Doctran:使用LLM进行高级文档转换的Python框架

Doctran: 革新文档处理的智能框架

2024年09月05日
Cover of Doctran: 革新文档处理的智能框架
相关项目
Project Cover

clipper.js

Clipper是一个Node.js命令行工具,可以便捷地将网页内容剪辑并转换为Markdown格式。利用Mozilla的Readability和Turndown库,它提供了一种快速保存网页内容的方法,无需浏览器插件或账户注册。适用于个人记录和存档,支持从URL、文件或目录中剪辑内容,还能将PDF转换为Markdown。

Project Cover

asciidoctor

Asciidoctor是一款开源的Ruby文本处理器,可将AsciiDoc文档转换为HTML 5、DocBook 5、PDF等多种格式。它提供丰富的扩展生态系统,包括转换器、构建插件等工具,便于创作和发布AsciiDoc内容。除Ruby环境外,Asciidoctor还支持通过AsciidoctorJ在JVM上运行,或通过Asciidoctor.js在JavaScript环境中使用。

Project Cover

pdf2htmlEX

pdf2htmlEX是一个开源的PDF转HTML工具,能精确还原PDF文档的文本、字体和布局。它支持复杂的学术论文和杂志排版,可处理大量公式和图表。该工具提供灵活的输出选项,包括生成单一HTML文件或按需加载页面。pdf2htmlEX保持较小的文件体积,同时支持链接、大纲和打印等功能,适用于多种在线发布场景。

Project Cover

magic-doc

Magic-Doc是一款开源轻量级工具,可将PPT、PPTX、DOC、DOCX和PDF等多种格式文件转换为Markdown。支持处理本地和S3存储的文件,并提供简洁的Python API。该工具转换速度快,尤其在处理数字化PDF和DOCX文件时效率高。Magic-Doc整合了多个开源项目,为文档格式转换提供了实用的解决方案。

Project Cover

go-fitz

go-fitz是对MuPDF的fitz库的Go语言封装,支持从PDF、EPUB和MOBI文档中提取页面内容,并可输出为图像、文本、HTML或SVG格式。该项目具有多种构建标签,适应不同使用场景。go-fitz主要用于处理和转换多种文档格式,可集成到需要文档内容提取和转换功能的Go应用中。go-fitz支持extlib、static、pkgconfig和musl等构建标签,允许用户根据需求选择使用外部MuPDF库或静态链接。项目提供了示例代码,展示了如何使用go-fitz提取PDF页面并保存为JPEG图像。

Project Cover

pypandoc

pypandoc是pandoc文档转换工具的Python封装库,支持多种格式间的转换,如Markdown到PDF、HTML到Word等。它提供简洁的API,支持自定义参数和过滤器,能处理Unicode文本。pypandoc可通过pip安装,也提供包含pandoc的二进制包。作为一个灵活的文档处理工具,pypandoc简化了在Python中使用pandoc的过程。

Project Cover

mammoth.js

Mammoth是一个开源的.docx文件转换工具,可将Microsoft Word、Google Docs和LibreOffice文档转换为HTML。它通过提取文档的语义信息,生成简洁的HTML结构,支持标题、列表、表格等多种格式。Mammoth提供自定义样式映射功能,适用于Node.js和浏览器环境,具有简单的API。这个工具专注于保留文档的结构和语义,而非完全复制原始样式,适合需要清晰HTML输出的场景。

Project Cover

marker-api

Marker API是一款性能卓越的PDF转Markdown工具,支持多语言和多种文档类型。该工具能精准提取文本、表格、代码块和图片,通过深度学习模型实现高速转换,尤其适用于学术论文、技术文档等复杂PDF的转换。与同类产品相比,转换速度提升4倍。Marker API部署简便,适用于GPU和CPU环境,为PDF文档处理提供灵活选择。

Project Cover

Mapify

通过AI技术,Mapify从文本、图片、视频和语音中迅速提炼核心信息,形成清晰的思维导图,适合个人学习与团队协作。其直观的界面和对多种文件格式的支持,简化了信息整理与知识管理。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号