pdf2md
将PDF文件解析并转换为Markdown的JavaScript npm库
主要变更
查看发布记录
使用方法
作为库使用
const fs = require('fs')
const pdf2md = require('@opendocsg/pdf2md')
const pdfBuffer = fs.readFileSync(filePath)
pdf2md(pdfBuffer, callbacks)
.then(text => {
let outputFile = allOutputPaths[i] + '.md'
console.log(`正在写入${outputFile}...`)
fs.writeFileSync(path.resolve(outputFile), text)
console.log('完成。')
})
.catch(err => {
console.error(err)
})
命令行工具
$ cd [项目文件夹]
$ npx @opendocsg/pdf2md --inputFolderPath=[你的输入文件夹路径] --outputFolderPath=[你的输出文件夹路径] --recursive
如果你正在对大量文件进行递归转换,可能会遇到"Allocation failed - JavaScript heap out of memory"错误。这时,请运行以下命令:
$ node lib/pdf2md-cli.js --max-old-space-size=4096 --inputFolderPath=[你的输入文件夹路径] --outputFolderPath=[你的输出文件夹路径] --recursive
选项:
- 输入文件夹路径(必须存在)
- 输出文件夹路径(必须存在)
- 递归 - 转换文件夹内所有子文件夹中的PDF。如果需要递归,请指定该标签;如果不需要,则省略
致谢
pdf-to-markdown - Johannes Zillmann的原始项目
pdf.js - Mozilla的PDF解析和渲染平台,用作原始解析器