kumo-search: 开箱即用的端到端搜索引擎框架

kumo-search: 打造现代化的搜索引擎框架

在当今数字时代,搜索引擎已经成为人们获取信息的重要途径。不仅仅是全网搜索,许多垂直领域如电商、社交、新闻等都需要强大的搜索功能来支撑业务发展。然而,开发一个高性能、可扩展的搜索引擎系统并非易事,需要大量的工程和算法支持。为了解决这一难题,kumo-search应运而生。

kumo-search是一个功能丰富、开箱即用的端到端搜索引擎框架,旨在帮助用户快速构建自己的搜索系统。它不仅提供了全面的搜索功能,还支持在EA(Elastic Automic Infrastructure Architecture)平台上实现工程自动化、服务治理等高级特性。让我们深入了解这个强大的搜索引擎框架。

kumo-search的核心特性

全面的搜索功能

kumo-search支持全文检索、倒排索引、正排索引、排序、缓存、索引分层等基本搜索功能,同时还提供了干预系统、特征收集、离线计算、存储系统等高级功能。这些功能的集成使得kumo-search能够满足各种复杂的搜索需求。

EA平台支持

kumo-search运行在EA平台之上,这使得它能够在多机房、多集群环境中实现:

工程自动化:简化部署和运维流程
服务治理:统一管理和监控服务
实时数据:支持数据的实时处理和更新
服务降级与容灾:保证系统的高可用性

快速迭代能力

kumo-search内置了AOT(Ahead-Of-Time)编译器,用户可以使用Python编写业务逻辑,框架会自动生成C++代码并编译成动态库。这种设计允许搜索引擎能够动态更新,极大地提高了开发效率和系统的灵活性。

丰富的项目生态

kumo-search不是孤立的系统,它拥有一个完整的项目生态。这些项目涵盖了基础库、服务组件、开发工具等多个方面,为搜索引擎的开发和运维提供了全方位的支持。

kumo search logo

kumo-search的技术架构

kumo-search的技术架构可以分为以下几个层次:

基础库层
- collie: 引用外部header only library
- turbo: 提供hash、log、容器类、字符串操作等基础功能
- melon: 负责RPC通信
- alkaid: 封装文件系统操作,支持本地文件、HDFS、S3等
- mizar: 基于RocksDB、ToplingDB的存储引擎内核
核心功能层
- alioth(玉衡): 表格内存管理
- megrez(天权): 数据集读写
- phekda: 统一向量引擎访问API
- merak(天璇): 综合搜索引擎内核
- dubhe(天枢): NLP内核
- flare: GPU、CPU高维张量计算
工具与应用层
- theia: 基于OpenGL的图形图像显示
- dwarf: Jupyter协议C++内核
- exodus: Jupyter应用
- hercules: Python AOT编译器
- carbin: C++包管理器和CMake生成器
服务层
- sirius: EA元数据服务器
- polaris: 向量引擎单机服务
- elnath: 综合搜索引擎单机服务
- vega: 向量引擎数据库集群版
- arcturus: 综合搜索引擎集群版
- pollux: 综合引擎业务控制台
- capella: LTR排序服务
- aldebaran: 搜索建议服务集群
- nunki: NLP服务