-
ETL-01-DataX 是阿里云DataWorks数据集成的开源版本 CRUD 例子
拓展阅读
DataX集成可视化页面,选择数据源即可一键生成数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源,批量创建RDBMS数据同步任务,集成开源调度系统,支持分布式、增量同步数据、实时查看运行日志、监控执行器资源、KILL运行进程、数据源信息加密等。
DataX全量、增量、已删除数据同步方案与实际运用
DataX 是一款可以实现异构数...
2024-01-05 13:01:55 |
ETL
-
ETL-01-DataX 是阿里云DataWorks数据集成的开源版本入门介绍
拓展阅读
DataX集成可视化页面,选择数据源即可一键生成数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源,批量创建RDBMS数据同步任务,集成开源调度系统,支持分布式、增量同步数据、实时查看运行日志、监控执行器资源、KILL运行进程、数据源信息加密等。
DataX
DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里...
2024-01-05 13:01:55 |
ETL
-
database mysql install on windows10 WSL
背景
希望在 windows10 的 WSL 中安装 mysql。
推荐使用root用户,或者在每条命令前面加上sudo
安装
1.1-寻找 mysql
搜索MySQL:
sudo apt update
sudo apt search mysql-server
如下:
dh@d:~$ apt search mysql-server
Sorting... Done
Full ...
2024-01-05 13:01:55 |
Database
-
ETL-50-apache SeaTunnel v2.3.3 源码之 connector-cdc-mysql 01 schema change 已经支持了?但是为什么实际测试无效?
基础知识
官方使用配置:https://seatunnel.apache.org/docs/2.3.0/connector-v2/source/MySQL-CDC/
技术设计:ETL-40-apache SeaTunnel cdc 设计
以及底层依赖的 debezium:
Debezium-01-为捕获数据更改(change data capture,CDC)提供了一个低延迟的流式处...
2024-01-05 13:01:55 |
ETL
-
ETL-50-apache SeaTunnel checkpoint v2.3.3 源码之 config 配置
checkpoint
这个功能能力比较重要,重点学习一下。
此处以 v2.3.3 为例。
savepoint 与 checkpoint
savepoint 是以 checkpoint 为基础实现的。
savepoint 可以让我们保存+恢复一个任务。
我们这里重点看一下 checkpoint
server 配置
seatunnel.yaml
seatunnel:
...
2024-01-05 13:01:55 |
ETL
-
ETL-40-apache SeaTunnel v2.3.3 源码分析简化后的代码模块
整体模块
seatunnel-api
seatunnel-common
seatunnel-config
seatunnel-connectors-v2
seatunnel-core
seatunnel-dist
seatunnel-e2e
seatunnel-engine
seatunnel-examples
seatunnel-formats
seatunnel-plugin-disc...
2024-01-05 13:01:55 |
ETL
-
ETL-40-apache SeaTunnel 源码分析 source-code SeaTunnel.run(clientCommandArgs.buildCommand());
业务需求
测试的时候,执行了本地的一个单元测试,但是任务是如何执行的?
和 web 调用异曲同工之妙。
source
测试类
import org.apache.seatunnel.core.starter.SeaTunnel;
import org.apache.seatunnel.core.starter.enums.MasterType;
import org.apache....
2024-01-05 13:01:55 |
ETL
-
ETL-40-apache SeaTunnel cdc 设计
引言
在快速发展的数据驱动时代,数据的实时、准确同步成为了企业信息系统不可或缺的一部分。随着技术的进步,特别是在分布式计算和大数据技术的背景下,构建一个高效且可靠的数据同步管道成为了挑战。
Apache SeaTunnel作为一个先进的数据集成开发平台,提供了构建高效CDC数据同步管道的可能性。本文将深入探讨利用Apache SeaTunnel构建CDC数据同步管道的过程,揭示其背后的关键...
2024-01-05 13:01:55 |
ETL