#爬虫
MediaCrawler - 社交媒体数据爬虫工具 支持多平台内容采集
Github开源项目自动化Playwright社交媒体数据采集爬虫
MediaCrawler是一款开源的社交媒体数据爬虫工具,支持小红书、抖音、快手等多个主流平台。该工具可采集视频、图片、评论等内容,提供关键词搜索、指定ID爬取等功能。项目采用Playwright技术简化逆向过程,并集成了登录态缓存、IP代理等实用特性。MediaCrawler为社交媒体数据分析提供了便捷的数据采集解决方案。
xnLinkFinder - 全面的网站端点和参数发现工具
Github开源项目爬虫xnLinkFinder端点发现链接提取参数识别
xnLinkFinder是一款专注于发现网站端点和潜在参数的工具。它通过多种方式收集信息,包括网站爬取、文件搜索、安全工具项目分析等。该工具提供灵活的输入输出选项,支持深度搜索和多线程处理,并允许自定义过滤和排除规则。xnLinkFinder还可生成目标专用词表,为网络安全研究和渗透测试提供有力支持。
github-trending-backup - GitHub热门项目自动备份与趋势追踪工具
Github开源项目GitHub自动化编程语言爬虫趋势分析
github-trending-backup是一个自动化工具,每日抓取并备份GitHub上多种编程语言的热门项目。该工具支持包括Go、Rust、Python在内的20多种编程语言,将结果以Markdown格式保存。这为开发者提供了追踪和了解技术趋势的便捷方式。通过每日更新,该项目确保开发者能及时获取GitHub上最受关注的开源项目信息。
jikan-rest - 非官方 MyAnimeList 数据接口 提供便捷动漫信息获取
Github开源项目REST API爬虫MyAnimeListJikan
Jikan REST API 为开发者提供了获取 MyAnimeList 动漫、漫画、人物等数据的简便方法。通过网页抓取实现 API 功能,无需依赖不稳定 API 或自行开发解析器。项目支持多种编程语言,包括 JavaScript、Python、Java 等,并提供免费的公共 API 服务。持续更新,保持与 MyAnimeList 数据同步,是动漫相关应用开发的理想选择。Jikan 在日语中意为'时间',旨在为开发者节省宝贵时间。
awesome-cn - 将GitHub优质资源集中化,创建中文开发者知识库
Github开源项目GitHub爬虫awesome listmkdocs超赞列表
awesome-cn是一个集成GitHub各类优质资源列表的中文项目。通过自动化爬虫定期更新,汇集了涵盖多种编程语言、工具和技术的开发资源。项目使用mkdocs material构建,托管于GitHub Pages,访问地址为asmcn.icopy.site。开发者可在此快速检索所需的学习材料和技术资源。
fess - 开源企业级搜索服务器
Github开源项目搜索引擎OpenSearch爬虫Fess企业搜索服务器
Fess是基于OpenSearch/Elasticsearch的开源企业搜索服务器。它具有易用的管理界面,支持多种数据源爬取和文件格式处理。Fess提供类似Google站内搜索功能,可在Java环境中快速部署。其强大的搜索能力、灵活配置和丰富插件生态系统使其成为企业搜索的有力工具。
torrentinim - 低资源占用的开源种子搜索引擎和爬虫
Github开源项目自托管API爬虫Torrentinim种子搜索引擎
Torrentinim是一款开源的种子搜索引擎和爬虫,具有API驱动和低内存占用特点。支持Linux、Mac和Windows平台,可爬取多个索引站点的种子和磁力链接。设计简单易用,下载即可运行,平均RAM使用仅24MB。提供JSON搜索接口,支持eztv、1337x、nyaa等多个种子网站。Torrentinim高性能、低占用,是理想的自托管种子搜索解决方案。
twikit - Twitter爬虫工具 无需API密钥实现多种功能
Github开源项目Python库爬虫Twitter APITwikit无需API密钥
Twikit是一个功能丰富的Twitter爬虫库,无需API密钥即可实现发推、搜索推文等操作。该库支持上传媒体、搜索最新推文、获取用户推文和热门话题等功能,完全免费使用。Twikit采用异步设计,操作简便,适合开发Twitter机器人和数据分析工具。项目在GitHub上持续更新,开源社区可贡献代码和反馈问题。