Project Icon

llm-scraper

通过TypeScript库从网页提取结构化数据

LLM Scraper 是一个 TypeScript 库,使用 LLM 从网页提取结构化数据。支持本地和多种 AI 提供商,提供代码生成功能,基于 Playwright 框架,支持四种格式模式。使用 Zod 定义模式,确保全面的类型安全性。适用于需要高效数据提取和代码生成的开发者。

llm-scraper 项目介绍

llm-scraper 是一个强大的 TypeScript 库,它允许用户使用大型语言模型(LLMs)从任何网页中提取结构化数据。这个项目为网页数据抓取提供了一种创新的解决方案,特别适合那些需要从复杂网页中提取特定信息的开发者和数据分析师。

主要特性

llm-scraper 具有以下几个突出的特性:

  1. 多样化的 LLM 支持:它支持本地模型(如 Ollama 和 GGUF)以及云端模型(如 OpenAI 和 Vercel AI SDK 提供的模型)。这种灵活性使得用户可以根据自己的需求和资源选择最合适的模型。

  2. 类型安全:项目使用 TypeScript 开发,提供了完整的类型安全支持,这可以大大减少开发过程中的错误,提高代码质量。

  3. 基于 Playwright:llm-scraper 底层使用了 Playwright 框架,这使得它能够处理现代网页,包括那些依赖 JavaScript 渲染的动态网页。

  4. 流式对象支持:用户可以使用流式处理来获取部分对象,这对于处理大量数据或需要实时反馈的场景非常有用。

  5. 代码生成功能:最新版本支持代码生成,可以生成可重用的 Playwright 脚本,进一步简化了数据抓取过程。

  6. 多种格式支持:llm-scraper 支持四种数据格式:HTML、Markdown、纯文本(使用 Readability.js 提取)和图像截图(仅限多模态模型)。

使用方法

使用 llm-scraper 的基本步骤如下:

  1. 安装必要的依赖包。
  2. 初始化选择的 LLM 模型。
  3. 创建 LLMScraper 实例。
  4. 定义数据提取模式(使用 Zod 模式定义)。
  5. 运行 scraper 并获取结果。

项目提供了详细的示例代码,展示了如何从 Hacker News 网站提取热门故事。此外,它还支持流式处理和代码生成功能,这些高级特性为用户提供了更多灵活性和效率。

社区贡献

作为一个开源项目,llm-scraper 欢迎社区成员的贡献。无论是报告 bug、提出改进建议,还是直接提交代码,项目维护者都鼓励用户参与到项目的发展中来。

总的来说,llm-scraper 为网页数据提取提供了一个创新、灵活且强大的解决方案。它结合了大型语言模型的能力和现代网页抓取技术,为开发者提供了一个高效、易用的工具,可以大大简化从复杂网页中提取结构化数据的过程。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号