Canal
数据抽取是ETL流程的第一步。我们会将数据从RDBMS或日志服务器等外部系统抽取至数据仓库,进行清洗、转换、聚合等操作。在现代网站技术栈中,MySQL是最常见的数据库管理系统,我们会从多个不同的MySQL实例中抽取数据,存入一个中心节点,或直接进入Hive。市面上已有多种成熟的、基于SQL查询的抽取软件,如著名的开源项目Apache Sqoop,然而这些工具并不支持实时的数据抽取。MySQL Binlog则是一种实时的数据流,用于主从节点之间的数据复制,我们可以利用它来进行数据抽取。借助阿里巴巴开源的Canal项目,我们能够非常便捷地将MySQL中的数据抽取到任意目标存储中。
简单来说,Canal会将自己伪装成MySQL从节点(Slave),并从主节点(Master)获取Binlog,解析和贮存后供下游消费端使用。Canal包含两个组成部分:服务端和客户端。服务端负责连接至不同的MySQL实例,并为每个实例维护一个事件消息队列;客户端则可以订阅这些队列中的数据变更事件,处理并存储到数据仓库中。