seatunnel 简单使用(原名waterdrop)

将hive中多个表数据同步到clickhouse中提供实时查询，表均2亿条记录。对同步工具的要求一是能够实现抽数时间不宜过长；二是能够自定义控制将数据抽取到clickhouse集群指定的节点实例上。作为一名java开发，自然不想过多依赖Hadoop那一套，网上搜索一番后决定使用seatunnel，通过简单配置化就可以实现数据的抽取。

Apache SeaTunnel （Incubating) 是一个分布式、高性能、易扩展、用于海量数据（离线&实时）同步和转化的数据集成平台。

官方文档： https://interestinglab.github.io/seatunnel-docs/#/

安装比较简单，参考官方文档即可。

config.conf 下述配置是从hive中抽数插入到clickhouse中的配置，数据源是hive的一张表，通过seatunnel插件根据id字段进行分片插入clickhouse集群不同分片。