Norconex 爬虫
Norconex 网络和文件系统爬虫是功能齐全的爬虫(或蜘蛛),可以操作和存储收集到的数据到您选择的存储库中(例如搜索引擎)。它们非常灵活、强大、易于扩展且可移植。它们可以在任何操作系统上通过命令行使用基于文件的配置,或者使用有良好文档的 API 嵌入到 Java 应用程序中。
访问网站获取二进制下载和文档: https://opensource.norconex.com/crawlers/
您是否在正确的分支上?
此分支包含版本 4 的代码,目前仍在开发中。
如需获取 Norconex 网络爬虫的最新稳定版本,请使用版本 3 分支。
即将推出:爬虫 V4 技术栈
截至 2024 年 2 月 24 日,默认的 main
分支包含即将推出的版本 4 爬虫技术栈的代码。它现在是一个单一代码库,包含了所有之前在单独仓库中维护的 Norconex 爬虫相关项目。这个单一代码库中的所有项目现在将同时发布并共享相同的版本号。
在 v4 正式发布之前,此分支不应被视为稳定版本。
项目
此存储库中的所有项目共享相同的 Maven 组 ID:
com.norconex.crawler