目录

01.MOLAP

MOLAP

这应该算最传统的数仓了，1993年olap概念提出来时，指的就是MOLAP数仓，M即表示多维。大多数MOLAP产品均对原始数据进行预计算得到用户可能需要的所有结果，将其存储到优化过的多维数组中，也就是常听到的数据立方体。

由于所有可能结果均已计算出来并持久化存储，查询时无需进行复杂计算，且以数组形式可以进行高效的免索引数据访问，因此用户发起的查询均能够稳定地快速响应。这些结果集是高度结构化的，可以进行压缩/编码来减少存储占用空间。

但高性能并不是没有代价的。首先，MOLAP需要进行预计算，这会花去很多时间。如果每次写入增量数据后均要进行全量预计算，显然是低效率的，因此支持仅对增量数据进行迭代计算非常重要。其次，如果业务发生需求变更，需要进行预定模型之外新的查询操作，现有的MOLAP实例就无能为力了，只能重新进行建模和预计算。

在开源软件中，由eBay开发并贡献给Apache基金会的Kylin即属于这类OLAP引擎，支持在百亿规模的数据集上进行亚秒级查询。

下图是官方对Kylin的描述。

Apache Kylin 概览

代表

Kylin是完全的预计算引擎，通过枚举所有维度的组合，建立各种Cube进行提前聚合，以HBase为基础的OLAP引擎。
Druid则是轻量级的提前聚合(roll-up)，同时根据倒排索引以及bitmap提高查询效率的时间序列数据和存储引擎。

优点

Kylin

支持数据规模超大(HBase)
易用性强，支持标准SQL
性能很高，查询速度很快

Druid

支持的数据规模大(本地存储+DeepStorage–HDFS)
性能高，列存压缩，预聚合加上倒排索引以及位图索引，秒级查询
实时性高，可以通过kafka实时导入数据

缺点

Kylin

灵活性较弱，不支持adhoc查询；且没有二级索引，过滤时性能一般；不支持join以及对数据的更新。
处理方式复杂，需要定义Cube预计算；当维度超过20个时，存储可能会爆炸式增长；且无法查询明细数据了；维护复杂。
实时性很差，很多时候只能查询前一天或几个小时前的数据。

Druid

灵活性适中，虽然维度之间随意组合，但不支持adhoc查询，不能自由组合查询，且丢失了明细数据。
易用性较差，不支持join，不支持更新，sql支持很弱(有些插件类似于pinot的PQL语言)，只能JSON格式查询；对于去重操作不能精准去重。
处理方式复杂，需要流处理引擎将数据join成宽表，维护相对复杂；对内存要求较高。

场景

Kylin：适合对实时数据需求不高，但响应时间较高的查询，且维度较多，需求较为固定的特定查询；而不适合实时性要求高的adhoc类查询。
Druid：数据量大，对实时性要求高且响应时间短，以及维度较少且需求固定的简单聚合类查询(sum，count，TopN)，多以Storm和Flink组合进行预处理；而不适合需要join、update和支持SQL和窗口函数等复杂的adhoc查询；不适合用于SQL复杂数据分析的场景。

最近更新于0001-01-01