超赞网络爬虫
优秀网络爬虫和爬虫工具的集合。
Java
- Apache Nutch - 高度可扩展、高度可伸缩的网络爬虫。可插拔的解析、协议、存储和索引。
- websphinx - 专门用于HTML信息提取的网站处理器。
- Open Search Server - 提供全套搜索功能。构建自己的索引策略。解析器提取全文数据。爬虫可以索引一切。
- crawler4j - Java开源网络爬虫,提供简单的接口用于爬取网页。使用它,你可以在几分钟内设置一个多线程网络爬虫。
C/C++
- HTTrack - 高度可扩展、高度可伸缩的网络爬虫。可插拔的解析、协议、存储和索引。
C#
- ccrawler - 基于C# 3.5版本构建。包含一个简单的网页内容分类器扩展,可以根据内容区分网页。
Erlang
- ebot - 基于nosql数据库(apache couchdb, riak)、AMQP数据库(rabbitmq)、webmachine和mochiweb构建的开源网络爬虫。
Python
- scrapy - Scrapy,一个快速的高层次网络爬虫和刮取框架。
- gdom - gdom,使用GraphQL进行DOM遍历和刮取。
- trafilatura - 用于提取元数据、主要文本和评论的库和命令行工具。
- extractnet - 基于机器学习的Python内容和元数据提取框架
- Scrapegraph-ai - 一个使用AI进行网页抓取的开源库
PHP
- Goutte - Goutte,一个简单的PHP网络爬虫。
- DiDOM - 简单快速的HTML解析器。
- simple_html_dom - 简单HTML DOM库的分支。
- PHPCrawl - PHPCrawl是一个用PHP编写的网站爬行/爬虫框架。
- Crawler - 用于快速网络爬虫和刮取开发的库。
Nodejs
- puppeteer - Headless Chrome Node API https://pptr.dev。
- Phantomjs - 可编程的Headless WebKit。
- node-crawler - NodeJS + 服务器端jQuery的网络爬虫/蜘蛛。
- node-simplecrawler - 灵活的事件驱动型node爬虫。
- spider - 使用node.js和jQuery对网站进行可编程爬取。
- slimerjs - 运行Gecko的类似PhantomJS的工具。
- casperjs - PhantomJS和SlimerJS的导航脚本编写和测试工具。
- zombie - 使用node.js的超快、全栈、无头浏览器测试。
- nightmare - Nightmare是PhantomJS的高级封装,让你可以自动化浏览器任务
- jsdom - WHATWG DOM和HTML标准的JavaScript实现,用于node.js
- xray - 下一代网络爬虫。透过
<html>
噪音看本质。 - lightcrawler - 爬取网站并通过Google lighthouse运行。
Ruby
- wombat - 轻量级Ruby网络爬虫/刮取工具,具有优雅的DSL,可从页面提取结构化数据。
Go
Rust
许可证
贡献
在提交建议之前,请阅读贡献指南。