数据体系(Data Platform)

目标:让数据从“可采集”→“可信”→“可复用”→“可决策”

P0(数据基础)
├── 数据采集 / 埋点体系
├── 数据中台(数据湖 / 数据仓库)
├── ETL / ELT 平台(Airflow)

P1(数据可信)
├── 元数据平台(Data Catalog)
├── 指标平台
├── 数据质量平台(DQ)

P2(数据服务)
├── 数据 API 平台
├── 报表平台(BI)
├── 数据可视化平台

P3(数据资产化)
├── 数据资产管理
├── 数据权限与安全治理
├── 特征平台(Feature Store)

中间件体系的本质不是“技术选型”,而是“运行能力抽象”:

下面我把 数据中台(以数据湖 / 数据仓库为核心)企业级、可落地、可演进的方式完整展开。

不是“概念对比”,而是为什么要这样建、每一层解决什么问题、什么时候该用哪一类技术


一、一句话先定性

数据中台 = 用统一的数据架构 + 数据治理能力,把“分散的数据”沉淀为“可复用的数据资产”。

而其中最核心的两大基础设施就是:

  • 数据湖(Data Lake):解决“数据怎么都能先放进来”
  • 数据仓库(Data Warehouse):解决“数据怎么被稳定、可信地使用”

二、数据中台整体技术架构全景

数据采集层
  ↓
ODS 原始层(数据湖)
  ↓
数据湖治理层(格式 / Schema / 版本)
  ↓
明细数据层(DWD)
  ↓
汇总数据层(DWS)
  ↓
应用数据层(ADS / Mart)
  ↓
数据服务 & BI & AI

数据湖和数据仓库不是“二选一”,而是“分工协作”。


三、数据湖(Data Lake)——“什么都先接住”

1. 数据湖解决的核心问题

传统数仓的问题:

  • 必须先建表
  • Schema 强约束
  • 新数据接入慢

数据湖的目标:

能力 说明
接入灵活 结构化 / 半结构化 / 非结构化
成本低 对象存储
可回放 原始数据可重算
解耦 采集 ≠ 建模

2. 数据湖的核心组成

(1)底层存储

常见选择:

  • HDFS(传统)
  • S3 / OSS / COS
  • MinIO(私有化首选)

特征:

  • 大文件
  • 顺序读
  • 冷热分层

(2)表格式(极其关键)

如果只有“文件”,那只是“垃圾场”。

现代数据湖 = 对象存储 + 表格式

主流三大表格式:

格式 特点
Iceberg Schema 演进强、生态好
Hudi Upsert / CDC 强
Delta Lake 事务能力强

👉 推荐优先级(企业) Iceberg ≥ Hudi > Delta


(3)ODS(原始数据层)

原则:

  • 不做复杂清洗
  • 尽量接近源数据
  • 保留原始字段

典型用途:

  • 重放
  • 问题追溯
  • 血缘分析

3. 数据湖常见“坑”

  1. 只有存储,没有表格式
  2. ODS 被当成业务表用
  3. 没有元数据治理
  4. 数据无限增长无生命周期

四、数据仓库(Data Warehouse)——“让数据可用、可信”

1. 数仓的核心目标

让不同人、不同时间、不同系统,看到“同一口径的数据”。

关键词:

  • 稳定
  • 可复用
  • 口径统一

2. 数仓的经典分层模型

(1)ODS(数仓语义)

注意:数仓 ODS ≠ 数据湖 ODS

  • 数据湖 ODS:原始
  • 数仓 ODS:轻度清洗后的“贴源数据”

(2)DWD(明细层)

  • 一行 = 一条业务事实
  • 维度打平
  • 不做聚合

(3)DWS(汇总层)

  • 按主题域
  • 统一指标口径
  • 跨业务复用

(4)ADS / Data Mart

  • 面向应用
  • 面向 BI / API
  • 不可复用也没关系

3. 建模方法(决定成败)

1️⃣ 维度建模(Kimball)

  • 事实表 + 维度表
  • BI 友好
  • 上手快

2️⃣ 主题域建模(Inmon / Data Vault)

  • 面向全局
  • 前期成本高
  • 中台型企业更适合

👉 大厂实践: 主题域为主,局部维度建模。


五、湖仓一体(现代主流架构)

1. 为什么一定会走向湖仓一体

如果分裂:

  • 湖里一套
  • 仓里一套
  • 数据重复、成本翻倍

湖仓一体的本质:

同一份数据,用不同的计算引擎消费。


2. 典型湖仓一体架构

MinIO / S3
  + Iceberg
    ├── Spark(离线)
    ├── Flink(流)
    ├── Trino / Presto(交互)
    └── Doris / StarRocks(OLAP)

3. 实时数仓的接入方式

  • CDC → Hudi / Iceberg
  • Flink 实时写表
  • 分钟级 / 秒级可见

六、数据治理:中台的“中枢神经”

没有治理,就不叫中台。

1. 元数据治理

  • 表 / 字段
  • 血缘
  • 影响分析

2. 数据质量

  • 完整率
  • 准确率
  • 延迟

3. 指标治理

  • 指标字典
  • 口径审批
  • 指标复用率

4. 数据资产化

  • 数据目录
  • 热度
  • 价值评分

七、成本 & 生命周期管理(非常现实)

1. 数据分层存储

层级 存储
热数据 高性能
温数据 普通
冷数据 归档

2. 生命周期策略

  • ODS 保留 7–30 天
  • 明细层 6–12 月
  • 汇总长期

八、常见失败案例总结

  1. 先买工具,后想架构
  2. 只有湖,没有仓
  3. 只有仓,没有治理
  4. 指标口径长期打架
  5. 中台没人用

九、结合你背景的关键价值点

结合你关注的:

  • 监控 / 日志 / Trace
  • 告警 / 根因分析
  • AI 智能分析

结论非常明确:

数据湖 = 可观测原始事实 数据仓库 = 可决策的结构化事实

AI 的“可信度”,100% 取决于这里。


十、给你一份“企业级推荐组合”

如果是 自建 / 私有化 / 技术中台

  • 存储:MinIO
  • 表格式:Iceberg
  • 批计算:Spark
  • 流计算:Flink
  • OLAP:Doris / StarRocks
  • 查询:Trino
  • 治理:自研 + OpenMetadata

合理路径

前端 / 后端埋点
        ↓
Kafka
        ↓
Flink
        ↓
MongoDB(短期缓存 / 实时查询)
        ↓
Iceberg on MinIO(长期数据湖)