数据技术前瞻

数据技术前瞻

流批一体成为主流开发模式

从单机 OLAP 到 Lambda 到 Kappa 的演进,数据链路上的问题、数据计算层面的问题得到了很好解决。

  • “远古”时代,通过写 SQL 脚本抽取 OLTP 数据库中数据进行分析和统计,大量查询有可能把数据库拖挂;
  • OLAP 分析成为数据库的一项重要能力,这个时候,可以写 SQL,也可以写 Python 代码等来进行数据分析和统计,但面对不断增长的数据量,数据库性能遇到挑战;
  • Hadoop 技术的引入和不断成熟,海量数据的离线存储、计算和调度问题得到解决;
  • Storm 让海量数据的实时计算成为可能,促进了一大批实时数据产品的出现,也促进了 Lambda 数据架构的出现和流行;
  • Kafka、Spark、Flink 等技术的流行,整个数据链路的全流式计算成为可能,Kappa 架构出现和流行。

那未来一切皆流式,一切皆实时是否可行?是否经济?我们的数据架构还存在什么问题?列举几个数据领域常见的问题:

Links