数据湖

本文最后更新于 2024年5月13日 晚上

数据湖定义为一个集中式存储,以任意规模存储所有结构化和非机构化数据,但从应用上来说可以用作离线数仓的替代(能力增强),以及与实时数仓的统一(牺牲一定的实时性),然而实际的降本增效效果是其大规模应用的障碍。

WHY

2024-02-25T19:33:29.171947943-bgbxfjba.png

历史:数据库(事务) -> 数据仓库(分析) -> 数据湖(非结构化) -> 湖仓一体(统一)

  • 低成本&高可靠性

  • 元数据

  • 时间旅行

  • 更新

WHAT

表格式

HOW

三剑客:Delta vs Iceberg vs Hudi

后起之秀:Paimon

USE CASE

  • CDC入湖

  • 状态外置

  • 流批&全增量一体

OLAP

查询加速


数据湖
https://syntomic.cn/2024/04/20/数据湖/
作者
syntomic
发布于
2024年4月20日
更新于
2024年5月13日
许可协议