search_engines
一个Python库,可以查询Google、Bing、Yahoo和其他搜索引擎,并从多个搜索引擎结果页面收集结果。 请注意,网络抓取可能违反某些搜索引擎的服务条款,可能导致临时封禁。
支持的搜索引擎
Google Bing Yahoo Duckduckgo Startpage Aol Dogpile Ask Mojeek Brave Torch
特性
- 创建输出文件(html、csv、json)。
- 支持搜索过滤器(url、标题、文本)。
- 支持HTTP和SOCKS代理。
- 使用Torch收集暗网链接。
- 易于添加新的搜索引擎。您可以通过在
search_engines/engines/
中创建一个新类,并将其添加到search_engines/engines/__init__.py
中的search_engines_dict
字典来添加新引擎。新类应该继承SearchEngine
,并重写以下方法:_selectors
、_first_page
、_next_page
。 - 兼容Python2和Python3。
要求
Python 2.7 - 3.x,同时需要 _Requests_和 BeautifulSoup
安装
运行安装文件:$ python setup.py install
。
完成!
使用方法
作为库使用:
from search_engines import Google
engine = Google()
results = engine.search("my query")
links = results.links()
print(links)
作为CLI脚本使用:
$ python search_engines_cli.py -e google,bing -q "my query" -o json,print
其他版本
- async-search-scraper 由@soxoj编写的一个非常棒的异步实现