数据湖
本文最后更新于 2024年5月13日 晚上
数据湖定义为一个集中式存储,以任意规模存储所有结构化和非机构化数据,但从应用上来说可以用作离线数仓的替代(能力增强),以及与实时数仓的统一(牺牲一定的实时性),然而实际的降本增效效果是其大规模应用的障碍。
WHY
历史:数据库(事务) -> 数据仓库(分析) -> 数据湖(非结构化) -> 湖仓一体(统一)
低成本&高可靠性
元数据
时间旅行
更新
WHAT
表格式
HOW
三剑客:Delta vs Iceberg vs Hudi
后起之秀:Paimon
USE CASE
CDC入湖
状态外置
流批&全增量一体
OLAP
查询加速
数据湖
https://syntomic.cn/2024/04/20/数据湖/