Dozer: 高效实时数据同步工具

dozer

Dozer简介

Dozer是一款强大的实时数据同步工具,专为高效数据移动而设计。它利用变更数据捕获(CDC)技术,可以从多种数据源实时捕获数据变更,并将数据同步到多种目标存储中。与传统的Debezium+Kafka解决方案相比,Dozer在性能上有数量级的提升,同时还支持无状态的数据转换。

Dozer主要用于将数据实时同步到数据仓库中。在实际应用中,它被广泛用于将数据同步到ClickHouse数据库,并构建数据API以及与大语言模型(LLM)的集成。

Dozer架构图

核心功能特性

Dozer具有以下几个突出的特性:

高性能:比Debezium+Kafka快数倍,能够处理大规模实时数据流。
多源多目标:支持从多种数据源捕获数据,并同步到多种目标存储。
CDC技术:利用变更数据捕获技术,实时捕获数据变更。
无状态转换:支持在数据同步过程中进行无状态的数据转换。
简单配置:通过单个配置文件即可完成复杂的数据同步任务。
开源免费:基于AGPL-3.0许可证开源,可以自由使用和修改。

支持的数据源

Dozer支持多种数据源,包括:

PostgreSQL
MySQL
Snowflake
Kafka
MongoDB
Amazon S3
Google Cloud Storage
Oracle (企业版)
Aerospike (企业版)

支持的目标存储

Dozer可以将数据同步到以下目标存储:

ClickHouse
PostgreSQL
MySQL
BigQuery
Oracle (企业版)
Aerospike (企业版)

使用方法

使用Dozer非常简单,只需要编写一个YAML格式的配置文件即可。以下是一个简单的配置示例:

app_name: dozer-bench
version: 1
connections:
  - name: pg_1
    config: !Postgres
      user: user
      password: postgres
      host: localhost
      port: 5432
      database: customers
sinks:
  - name: customers
    config: !Dummy
      table_name: customers

这个配置文件定义了一个PostgreSQL数据源和一个名为"customers"的虚拟目标存储。在实际使用中,你可以根据需要配置多个数据源和目标存储。