GPT 爬虫

从一个或多个 URL 爬取网站以生成知识文件，创建您自己的自定义 GPT

展示爬虫运行的动图

示例
开始使用
贡献

示例

这是一个自定义 GPT，我通过简单提供 Builder 文档的 URL 快速创建了它，用于帮助回答关于如何使用和集成 Builder.io 的问题。

这个项目爬取了文档并生成了文件，我将其上传作为自定义 GPT 的基础。

亲自尝试，询问有关如何将 Builder.io 集成到网站中的问题。

注意：您可能需要付费的 ChatGPT 计划才能访问此功能

开始使用

本地运行

克隆仓库

确保您安装了 Node.js 16 或更高版本。

git clone https://github.com/builderio/gpt-crawler

安装依赖

npm i

配置爬虫

打开 config.ts 并编辑 url 和 selector 属性以满足您的需求。

例如，要爬取 Builder.io 文档以创建我们的自定义 GPT，您可以使用：

export const defaultConfig: Config = {
  url: "https://www.builder.io/c/docs/developers",
  match: "https://www.builder.io/c/docs/**",
  selector: `.docs-builder-container`,
  maxPagesToCrawl: 50,
  outputFileName: "output.json",
};

查看 config.ts 了解所有可用选项。以下是常用配置选项的示例：

type Config = {
  /** 开始爬取的 URL，如果提供了 sitemap，则将使用 sitemap 并下载其中的所有页面 */
  url: string;
  /** 用于匹配页面上要继续爬取的链接的模式 */
  match: string;
  /** 用于获取内部文本的选择器 */
  selector: string;
  /** 爬取的最大页面数 */
  maxPagesToCrawl: number;
  /** 完成数据的文件名 */
  outputFileName: string;
  /** 可选的要排除的资源
   *
   * @example
   * ['png','jpg','jpeg','gif','svg','css','js','ico','woff','woff2','ttf','eot','otf','mp4','mp3','webm','ogg','wav','flac','aac','zip','tar','gz','rar','7z','exe','dmg','apk','csv','xls','xlsx','doc','docx','pdf','epub','iso','dmg','bin','ppt','pptx','odt','avi','mkv','xml','json','yml','yaml','rss','atom','swf','txt','dart','webp','bmp','tif','psd','ai','indd','eps','ps','zipx','srt','wasm','m4v','m4a','webp','weba','m4b','opus','ogv','ogm','oga','spx','ogx','flv','3gp','3g2','jxr','wdp','jng','hief','avif','apng','avifs','heif','heic','cur','ico','ani','jp2','jpm','jpx','mj2','wmv','wma','aac','tif','tiff','mpg','mpeg','mov','avi','wmv','flv','swf','mkv','m4v','m4p','m4b','m4r','m4a','mp3','wav','wma','ogg','oga','webm','3gp','3g2','flac','spx','amr','mid','midi','mka','dts','ac3','eac3','weba','m3u','m3u8','ts','wpl','pls','vob','ifo','bup','svcd','drc','dsm','dsv','dsa','dss','vivo','ivf','dvd','fli','flc','flic','flic','mng','asf','m2v','asx','ram','ra','rm','rpm','roq','smi','smil','wmf','wmz','wmd','wvx','wmx','movie','wri','ins','isp','acsm','djvu','fb2','xps','oxps','ps','eps','ai','prn','svg','dwg','dxf','ttf','fnt','fon','otf','cab']
   */
  resourceExclusions?: string[];
  /** 可选的输出文件中包含的最大文件大小（以兆字节为单位）*/
  maxFileSize?: number;
  /** 可选的输出文件中包含的最大令牌数 */
  maxTokens?: number;
};

运行爬虫

npm start

其他方法

使用 Docker 在容器中运行

要通过容器化执行获取 output.json，进入 containerapp 目录并按上述方式修改 config.ts。output.json 文件应该生成在 data 文件夹中。注意：containerapp 目录中的 config.ts 文件中的 outputFileName 属性已配置为与容器一起工作。

作为 API 运行

要将应用程序作为 API 服务器运行，您需要执行 npm install 来安装依赖项。服务器使用 Express JS 编写。

运行服务器：

npm run start:server 启动服务器。服务器默认在 3000 端口运行。

您可以使用 /crawl 端点，并在 POST 请求正文中提供配置 JSON 来运行爬虫。API 文档通过 /api-docs 端点提供，使用 Swagger 提供服务。

要修改环境，您可以将 .env.example 复制为 .env，并设置您的值（如端口等）来覆盖服务器的变量。

将数据上传到 OpenAI

爬虫将在项目根目录生成一个名为 output.json 的文件。将其上传到 OpenAI 以创建您的自定义助手或自定义 GPT。

创建自定义 GPT

使用此选项可以轻松访问您生成的知识的 UI，并可以轻松与他人分享

注意：目前您可能需要付费的 ChatGPT 计划才能创建和使用自定义 GPT

转到 https://chat.openai.com/
点击左下角的您的名字
在菜单中选择"My GPTs"
选择"Create a GPT"
选择"Configure"
在"Knowledge"下选择"Upload a file"并上传您生成的文件
如果出现文件太大的错误，您可以尝试将其分割成多个文件并分别上传，使用 config.ts 文件中的 maxFileSize 选项，或者使用 config.ts 文件中的 maxTokens 选项通过标记化来减小文件大小

如何上传自定义 GPT 的动图