流处理方案

当系统变得越来越复杂，数据库会被拆分为多个更小的库，如果借助这些衍生库实现像全文搜索这样的功能，那么如何保证所有的数据保持同步就是一项很有挑战性的任务了。使用多个数据库时，最大的问题在于它们并不是互相独立的。相同的数据会以不同的形式进行存储，所以当数据更新的时候，具有对应数据的所有数据库都需要进行更新。保证数据同步的最常用方案就是将其视为应用程序逻辑的责任，通常会对每个数据库进行独立的写操作。这是一个脆弱的方案，如果发生像网络故障或服务器宕机这样的失败场景，那么对一些数据库的更新可能会失败，从而导致这些数据库之间出现不一致性。Kleppmann 认为这并不是能够进行自我纠正的最终一致性，至少相同的数据再次进行写操作之前，无法实现一致性。

在 leader(主)数据库中，同时会将所有的写入操作按照处理的顺序存储为流，然后一个或多个 follower 数据库就能读取这个流并按照完全相同的顺序执行写入。这样的话，这些数据库就能更新自己的数据并成为 leader 数据库的一致性备份。对于 Kleppmann 来说，这是一个非常具有容错性的方案。每个 follower 都遵循它在流中的顺序，在出现网络故障或宕机时，follower 数据库能够从上一次的保存点开始继续进行处理。Kleppmann 还提到在实现上述场景时，使用 Kafka 作为工具之一。目前，他正在编写一个实现，Bottled Water，在这个实现中，他使用了 PostgreSQL 来抽取数据变化，然后将其中继到 Kafka 中，代码可以在GitHub 上获取到。

最近更新于 0001-01-01