site2pdf

这个工具生成一个PDF文件，包含网站的主页面和所有匹配提供的URL模式的子页面。

📗此工具生成的PDF特别适合用于基于AI的检索增强生成(RAG)和问答(QA)任务。📗

动机

🧳便携性： 将网站的多个页面合并为一个文件提高了便携性，使信息更容易共享和使用。
🤖AI集成： 在某些用例中，如Google NotebookLM和ChatGPT GPTs，以PDF格式提供主数据集有助于创建更高效的机器人。
🖼️视觉信息保存： 通过以PDF格式生成结果，可以保留图像等视觉信息，确保多模态模型能更好地识别。

先决条件

要运行此软件，您需要在计算机上安装Node.js。您可以从Node.js官方网站下载并安装最新版本的Node.js。

依赖项(Linux)

该项目使用以下依赖项：

sudo apt-get update
sudo apt-get install -y libxkbcommon0
sudo apt-get install -y libnss3 libxss1 libasound2
sudo apt-get install -y fonts-liberation libappindicator3-1 libatk-bridge2.0-0 libatspi2.0-0 libgtk-3-0 libgbm-dev

使用方法

npx site2pdf-cli <main_url> [url_pattern]

参数

<main_url>：要转换为PDF的网站的主URL。
[url_pattern]：可选的正则表达式，用于过滤子链接。默认只匹配主URL域内的链接。

示例

npx site2pdf-cli "https://www.typescriptlang.org/docs/handbook/" "https://www.typescriptlang.org/docs/handbook/2/"

> site2pdf@1.0.0 start
> tsx index.ts https://www.typescriptlang.org/docs/handbook/ https://www.typescriptlang.org/docs/handbook/2/

为以下链接生成PDF：https://www.typescriptlang.org/docs/handbook/
为以下链接生成PDF：https://www.typescriptlang.org/docs/handbook/2/basic-types.html
为以下链接生成PDF：https://www.typescriptlang.org/docs/handbook/2/everyday-types.html
为以下链接生成PDF：https://www.typescriptlang.org/docs/handbook/2/narrowing.html
为以下链接生成PDF：https://www.typescriptlang.org/docs/handbook/2/functions.html
为以下链接生成PDF：https://www.typescriptlang.org/docs/handbook/2/objects.html
为以下链接生成PDF：https://www.typescriptlang.org/docs/handbook/2/classes.html
为以下链接生成PDF：https://www.typescriptlang.org/docs/handbook/2/modules.html
为以下链接生成PDF：https://www.typescriptlang.org/docs/handbook/2/types-from-types.html
PDF已保存至 ./out/www-typescriptlang-org-docs-handbook.pdf

此命令将生成一个名为www.typescriptlang.org-docs-handbook.pdf的PDF文件，包含https://www.typescriptlang.org/docs/handbook/域下所有匹配https://www.typescriptlang.org/docs/handbook/2/模式的页面。

Windows故障排除

在Windows上运行Puppeteer时，您可能会遇到与生成PDF相关的权限问题。要解决这个问题，您需要授予适当的权限。请按照以下步骤操作：

icacls %USERPROFILE%/.cache/puppeteer/chrome /grant *S-1-15-2-1:(OI)(CI)(RX)

故障排除 - Chrome在Windows上报告沙盒错误 | Puppeteer

实现细节

使用puppeteer导航到主页面。
查找所有匹配提供的url_pattern的子链接。
使用pdf-lib为每个子链接生成PDF，并将它们合并成一个文档。
使用基于主URL的slug化名称保存最终的PDF文件。

注意： 提供的url_pattern应该是有效的正则表达式。如果未提供url_pattern，该工具将默认只匹配主URL域内的链接。

该工具仍在开发中，可能存在限制。欢迎通过提出问题或拉取请求来为项目做出贡献！

开发

先决条件

确保您已安装Node.js和npm。您还需要现代版本的TypeScript和package.json中指定的其他依赖项。

设置

克隆仓库并安装依赖项：

git clone https://github.com/laiso/site2pdf.git
cd site2pdf
npm install

构建

该项目使用TypeScript。要编译TypeScript文件，请运行：

npx tsc

运行项目

您可以在开发模式下运行项目：

npm run dev

此命令使用tsx监视更改并根据需要重新编译。

测试

该项目使用Jest进行测试。要运行测试，请执行：

npm test

代码检查

代码检查使用Biome配置。要检查代码问题，请运行：

npx biome lint

代码格式化

要按照项目的样式指南格式化代码，请运行：

npx biome format

贡献

欢迎提出问题或拉取请求。请确保遵循现有的代码风格，并为新功能或错误修复包含测试。

注意事项

该项目使用ES模块。确保您的Node.js版本支持这一点。
根据需要更新依赖项，并确保与现有代码兼容。