#网页爬取

clipper.js - 网页内容剪辑工具，快速转换为Markdown格式

ClipperNode.jsMarkdown网页爬取文档转换Github开源项目

Clipper是一个Node.js命令行工具，可以便捷地将网页内容剪辑并转换为Markdown格式。利用Mozilla的Readability和Turndown库，它提供了一种快速保存网页内容的方法，无需浏览器插件或账户注册。适用于个人记录和存档，支持从URL、文件或目录中剪辑内容，还能将PDF转换为Markdown。

omniparse - 多类型非结构化数据解析与结构化平台

OmniParse结构化数据文档解析多媒体处理网页爬取Github开源项目

OmniParse是一个专注于非结构化数据处理的开源平台。该平台能够解析文档、表格、图像、视频、音频和网页等多种格式，将其转化为结构化数据，以便于生成式AI应用使用。OmniParse支持约20种文件类型，具备本地处理能力，无需依赖外部API。这使其适用于多种AI应用场景，包括检索增强生成(RAG)和模型微调等。

spyglass - 个性化搜索引擎实现快速精准信息检索

Spyglass个人搜索引擎网页爬取内容索引隐私保护Github开源项目

Spyglass作为一款创新个人搜索引擎，允许自定义索引内容，通过简洁界面快速访问。支持索引本地文档、互联网主题、Google日历和GitHub仓库等多种数据源，有效突破传统搜索限制。该工具在本地设备运行，保障数据隐私，同时提供强大搜索功能，便于构建个人专属信息库。

相关文章

Article Cover

OmniParse: 一个强大的AI数据解析平台

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号