#网页爬取
clipper.js - 网页内容剪辑工具,快速转换为Markdown格式
ClipperNode.jsMarkdown网页爬取文档转换Github开源项目
Clipper是一个Node.js命令行工具,可以便捷地将网页内容剪辑并转换为Markdown格式。利用Mozilla的Readability和Turndown库,它提供了一种快速保存网页内容的方法,无需浏览器插件或账户注册。适用于个人记录和存档,支持从URL、文件或目录中剪辑内容,还能将PDF转换为Markdown。
omniparse - 多类型非结构化数据解析与结构化平台
OmniParse结构化数据文档解析多媒体处理网页爬取Github开源项目
OmniParse是一个专注于非结构化数据处理的开源平台。该平台能够解析文档、表格、图像、视频、音频和网页等多种格式,将其转化为结构化数据,以便于生成式AI应用使用。OmniParse支持约20种文件类型,具备本地处理能力,无需依赖外部API。这使其适用于多种AI应用场景,包括检索增强生成(RAG)和模型微调等。
spyglass - 个性化搜索引擎 实现快速精准信息检索
Spyglass个人搜索引擎网页爬取内容索引隐私保护Github开源项目
Spyglass作为一款创新个人搜索引擎,允许自定义索引内容,通过简洁界面快速访问。支持索引本地文档、互联网主题、Google日历和GitHub仓库等多种数据源,有效突破传统搜索限制。该工具在本地设备运行,保障数据隐私,同时提供强大搜索功能,便于构建个人专属信息库。