项目介绍:Lego AI Parser
Lego AI Parser 是一个开源的应用程序,基于 FastAPI 构建并集成了 OpenAI 的功能,专注于解析 HTML 元素的可见文本内容。该应用可以轻松地设置为服务器,并支持通过任何编程语言进行调用。
支持的预设解析器
Lego AI Parser 提供了一系列预设解析器,以下是当前支持的网站解析器:
- Google Local Results Parser
- Amazon Listings Parser
- Etsy Listings Parser
- Wayfair Listings Parser
- BestBuy Listings Parser
- Costco Listings Parser
- Macy's Listings Parser
- Nordstrom Listings Parser
这些预设解析器可以帮助用户快速解析以上网站的列表信息。
基本用法
使用 Lego AI Parser 非常简单,以下是基本的使用步骤:
-
复制要解析的 HTML 元素的外部 HTML
下载所需解析的 HTML 代码片段。 -
使用 OpenAI 的 API 密钥
注册一个 OpenAI 账户,然后获取 API 密钥。 -
发送 POST 请求到指定的端点
设置请求头Content-Type
为application/json
,并准备好要解析的数据及 API 密钥,发送 POST 请求即可获得解析结果。
解析多个元素
Lego AI Parser 允许同时解析多个元素。用户可以在请求中混合传递 HTML 和纯文本数据。当元素超过模型的令牌大小时,Lego AI Parser 会自动分割提示并以原顺序返回结果。
自定义解析器设计
除使用预设解析器外,用户还可以设计自定义解析器。只需要提供如提示符(custom prompt)、示例以及有关 OpenAI 模型的信息。自定义解析器使用户能够根据具体需求进行灵活的文本解析。
不暴露 API 密钥的服务器端调用
为了提高安全性,Lego AI Parser 提供几种不暴露 API 密钥的方法:
- 仅生成提示符:仅获取生成调用 OpenAI 端点所需的提示符。
- 服务器端调用 OpenAI:使用生成的提示符在服务器端进行 OpenAI 调用。
- 仅解析调用:服务器端收集响应并发送
parse_only
调用以获取解析结果。
预期的错误响应
使用过程中可能遇到不同类型的错误响应,以下是一些常见错误示例:
- 提供的 API 密钥不正确。
- 超出当前配额,可能需要检查计划和账单详细信息。
- 如果 HTML 元素中包含的文本已超过最大令牌大小,则会跳过该结果。
自定义设置客户端调用的并发性和 API 密钥
可以通过 allowed_concurrency
参数自定义允许的客户端调用并发数量。不过,每分钟允许的最大调用次数仍需用户自行配置,适当在调用之间插入休眠时间有利于避免超过 OpenAI 的频繁访问限制。
Lego AI Parser 是一款强大的工具,适合需要大规模文本解析和分类的开发者。通过预设解析器和灵活的自定义选项,它不仅加速了开发流程,还最大化了使用 OpenAI 技术的优势。