项目介绍:gpt-automated-web-scraper
gpt-automated-web-scraper 项目是一个利用人工智能技术开发的网页数据提取工具。该工具能够根据用户定义的需求,从 HTML 源中提取所需的信息。通过生成并执行特定的抓取代码,用户可以快速获取所需数据。
前置条件
在运行该自动化抓取工具之前,请确保满足以下前置条件:
- 安装 Python 3.x
- 按照
requirements.txt
文件中的说明安装所需的 Python 包 - 拥有用于调用 OpenAI GPT-4 的 API 密钥
安装步骤
-
克隆项目仓库:
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
-
进入项目目录:
cd gpt-automated-web-scraper
-
安装所需的 Python 包:
pip install -r requirements.txt
-
设置 OpenAI GPT-4 API 密钥:
-
按照 OpenAI 的文档获取 API 密钥。
-
将项目目录内的
.env.example
文件重命名为.env
。 -
在
.env
文件中添加以下行,将YOUR_API_KEY
替换为实际的 API 密钥:OPENAI_API_KEY=YOUR_API_KEY
-
使用方法
使用 AI Web Scraper 时,可以通过命令行参数运行 gpt-scraper.py
脚本。
命令行参数
可用的命令行参数包括:
--source
:需要抓取的 HTML 源的 URL 或本地路径。--source-type
:指定源的类型,可以是"url"
或"file"
。--requirements
:用户定义的抓取需求。--target-string
:由于 GPT-4 的最大令牌限制(4k tokens),AI 模型仅处理所需数据所在 HTML 的较小子集。目标字符串应为网站中可以找到的示例字符串。
示例使用
以下是一些使用 AI Web Scraper 的示例命令:
python3 gpt-scraper.py --source-type "url" --source "https://www.scrapethissite.com/pages/forms/" --requirements "Print a JSON file with all the information available for the Chicago Blackhawks" --target-string "Chicago Blackhawks"
在实际使用中,请将 --source
、--requirements
和 --target-string
的值替换为您需要的具体值。
许可
该项目使用 MIT 许可证进行许可。您可以根据需求自由修改和使用该项目。