数据体系(Data Platform)
目标:让数据从“可采集”→“可信”→“可复用”→“可决策”
P0(数据基础)
├── 数据采集 / 埋点体系
├── 数据中台(数据湖 / 数据仓库)
├── ETL / ELT 平台(Airflow)
P1(数据可信)
├── 元数据平台(Data Catalog)
├── 指标平台
├── 数据质量平台(DQ)
P2(数据服务)
├── 数据 API 平台
├── 报表平台(BI)
├── 数据可视化平台
P3(数据资产化)
├── 数据资产管理
├── 数据权限与安全治理
├── 特征平台(Feature Store)
中间件体系的本质不是“技术选型”,而是“运行能力抽象”:
数据体系(Data Platform)
下面我按照企业级视角 + 可落地架构,系统性地把 数据体系(Data Platform) 拆解清楚。
整体假设你的背景是 中大型互联网 / 技术驱动型企业,并且你关心的是 “不仅能讲清楚,还能真正在公司里落地建设”。
一、什么是数据体系(Data Platform)
一句话定义
数据体系是支撑企业“数据采集 → 数据治理 → 数据计算 → 数据服务 → 数据价值变现”的统一技术与治理平台。
它的核心目标不是“存数据”,而是:
- 让数据可用
- 让数据可信
- 让数据可复用
- 让数据可规模化地产生业务价值
二、数据体系的总体分层架构(全景视图)
一个成熟的数据平台,通常可以拆为 9 个层级:
数据源层
↓
数据采集层
↓
数据存储层
↓
数据计算层
↓
数据建模层
↓
数据治理层(贯穿)
↓
数据服务层
↓
数据应用层
↓
数据安全与合规(贯穿)
下面逐层展开。
三、数据源层(Data Sources)
1. 典型数据源类型
| 类型 | 示例 |
|---|---|
| 业务系统 | 订单、用户、支付、库存 |
| 日志系统 | 应用日志、访问日志、埋点 |
| 中间件 | MQ、ES、Redis、DB Binlog |
| 运维监控 | 指标、Trace、告警 |
| 外部数据 | 第三方接口、公开数据 |
2. 核心挑战
- 数据 格式多样
- 数据 质量参差不齐
- 实时 & 离线并存
四、数据采集层(Data Ingestion)
1. 采集模式
(1)离线采集
- ETL / ELT
- 定时批处理
常见工具:
- DataX / SeaTunnel
- Sqoop
- 自研采集器
(2)实时采集
- 日志采集
- 事件流
常见技术:
- Kafka / Pulsar
- Flink CDC / Debezium
- Logstash / Filebeat
2. 设计重点
- 幂等性
- 断点续传
- 数据延迟可观测
- 数据血缘可追踪
五、数据存储层(Data Storage)
1. 存储类型划分
| 存储类型 | 用途 |
|---|---|
| 数据湖 | 原始数据、半结构化 |
| 数据仓库 | 分析型查询 |
| OLAP | 秒级分析 |
| KV / 搜索 | 高并发查询 |
2. 主流技术选型
- 数据湖:HDFS / S3 / MinIO + Iceberg / Hudi / Delta
- 数仓:Hive / ClickHouse / Snowflake
- OLAP:Doris / StarRocks
- 搜索:Elasticsearch
3. 冷热分层
- Hot:近 7–30 天
- Warm:3–6 个月
- Cold:归档 / 合规
六、数据计算层(Data Compute)
1. 批计算
- Hive / Spark
- 适合复杂聚合、历史分析
2. 流计算
- Flink / Spark Streaming
- 实时指标、风控、监控
3. 计算资源治理
- 资源池隔离
- 任务优先级
- 成本可视化
七、数据建模层(Data Modeling)
1. 常见建模方法
- ODS(原始层)
- DWD(明细层)
- DWS(汇总层)
- ADS(应用层)
2. 关键原则
- 主题域驱动
- 事实表 + 维度表
- 指标口径统一
3. 指标体系建设
- 指标字典
- 原子指标 → 派生指标
- 指标复用率
八、数据治理层(Data Governance)【核心】
真正区分“数据平台”和“数据堆砌”的地方。
1. 治理维度
| 维度 | 内容 |
|---|---|
| 元数据 | 表、字段、血缘、影响分析 |
| 数据质量 | 完整性、准确性、及时性 |
| 数据标准 | 命名规范、口径规范 |
| 生命周期 | 创建、变更、下线 |
| 主数据 | 用户、组织、商品 |
2. 数据资产化
- 数据目录(Data Catalog)
- 数据资产评分
- 热度 / 价值评估
九、数据服务层(Data Service)
1. 服务形态
- SQL 服务
- API 服务
- 特征服务(Feature Store)
- 实时指标服务
2. 典型能力
- 权限控制
- 缓存
- SLA 管控
- 限流 / 熔断
十、数据应用层(Data Application)
1. 应用类型
- BI 报表
- 运营分析
- 实时大盘
- 风控 / 推荐 / 画像
- AI / 机器学习
2. 面向角色
| 角色 | 关注点 |
|---|---|
| 业务 | 看指标 |
| 产品 | 看趋势 |
| 技术 | 看质量 |
| 管理层 | 看决策 |
十一、数据安全与合规(Data Security)
1. 安全能力
- 数据分级分类
- 脱敏 / 加密
- 行列级权限
- 数据审计
2. 合规要求
- 等保
- GDPR / 数据出境
- 内控审计
十二、数据平台建设路线图(落地视角)
阶段 1:能用
- 数据采集稳定
- 基础数仓
- 简单 BI
阶段 2:好用
- 指标统一
- 元数据治理
- 数据质量监控
阶段 3:可规模化
- 数据服务化
- 多租户
- 成本治理
阶段 4:智能化
- 实时数仓
- AI / 根因分析
- 自助分析
十三、常见失败原因(非常关键)
- 只建技术,不建治理
- 指标口径反复打架
- 没有数据 Owner
- 成本不可控
- 数据没人用
十四、与你背景的强关联点
结合你之前在 监控、运维、告警、根因分析 方向的积累:
- 数据体系(Data Platform)
- 数据体系(Data Platform)
- 一、什么是数据体系(Data Platform)
- 二、数据体系的总体分层架构(全景视图)
- 三、数据源层(Data Sources)
- 四、数据采集层(Data Ingestion)
- 五、数据存储层(Data Storage)
- 六、数据计算层(Data Compute)
- 七、数据建模层(Data Modeling)
- 八、数据治理层(Data Governance)【核心】
- 九、数据服务层(Data Service)
- 十、数据应用层(Data Application)
- 十一、数据安全与合规(Data Security)
- 十二、数据平台建设路线图(落地视角)
- 十三、常见失败原因(非常关键)
- 十四、与你背景的强关联点
