数据体系(Data Platform)
目标:让数据从“可采集”→“可信”→“可复用”→“可决策”
P0(数据基础)
├── 数据采集 / 埋点体系
├── 数据中台(数据湖 / 数据仓库)
├── ETL / ELT 平台(Airflow)
P1(数据可信)
├── 元数据平台(Data Catalog)
├── 指标平台
├── 数据质量平台(DQ)
P2(数据服务)
├── 数据 API 平台
├── 报表平台(BI)
├── 数据可视化平台
P3(数据资产化)
├── 数据资产管理
├── 数据权限与安全治理
├── 特征平台(Feature Store)
中间件体系的本质不是“技术选型”,而是“运行能力抽象”:
指标平台(Metrics Platform / KPI Platform)
好的,我们来系统、详细地展开 数据可信体系中的指标平台(Metrics / KPI Platform),从概念、核心功能、架构设计、实现方式到企业价值,以及它在数据中台和元数据平台中的位置。
一、什么是指标平台(Metrics Platform / KPI Platform)
指标平台 = 企业统一的“指标口径管理 + 计算 + 服务化系统”
核心目标:
-
统一指标口径
- 避免不同报表/BI系统对同一指标计算不一致
- 保证“数据可信”
-
提供可复用指标服务
- 指标可以被 BI、报表、数据分析、数据产品直接调用
- 支持实时 / 离线指标查询
-
监控指标质量
- 指标计算正确性、完整性、延迟
- 异常告警
二、指标平台管理的内容
指标平台不仅是指标计算工具,它是指标全生命周期管理系统,包括:
| 模块 | 内容 | 作用 |
|---|---|---|
| 指标定义管理 | 指标名称、业务语义、公式、维度、粒度 | 指标统一口径 |
| 指标血缘管理 | 上游数据源、ETL 作业、表、字段 | 根因分析、可追溯 |
| 指标计算引擎 | 批量计算、流式计算、实时计算 | 自动生成指标结果表或服务 |
| 指标服务化 | API / SDK / BI接口 | 业务自助调用、复用 |
| 指标质量管理 | 完整性、准确性、延迟、异常告警 | 数据可信保障 |
| 指标版本管理 | 变更历史、口径演进 | 审计与回滚 |
三、指标平台与数据可信的关系
指标平台是数据可信体系中的关键组成:
原始数据 → ETL/ELT → 数据湖/数仓 → 元数据平台 → 指标平台 → BI / 数据产品
- 元数据平台:管理“指标的来源、血缘、元信息”
- 指标平台:管理“指标的计算逻辑、口径、服务化和质量监控”
- 两者结合:保证指标可发现、可追踪、可复用、可审计
四、指标生命周期管理
指标平台关注 指标的全生命周期:
-
定义阶段
- 指标名称、业务语义、公式
- 指标维度:时间粒度(日/周/月)、业务粒度(用户/订单/产品)
-
计算阶段
- 批量指标:ETL/SQL定时计算
- 实时指标:流式计算(Flink、Kafka Streams)
- 数据服务:存储结果表或直接提供 API
-
校验阶段
- 与元数据关联,验证源数据完整性、准确性
- 校验历史趋势、异常波动
-
发布阶段
- 提供 API / SDK / BI接口
- 权限控制、审计日志记录
-
迭代阶段
- 指标口径变更 → 版本管理
- 上游变化 → 自动触发重新计算
五、核心功能模块
| 功能模块 | 详细描述 |
|---|---|
| 指标定义中心 | 集中定义指标公式、口径、维度,支持 SQL/DSL |
| 指标血缘分析 | 自动解析 ETL/ELT 作业、表、字段,生成血缘图 |
| 指标计算引擎 | 支持批量/流式计算,可和 Spark / Flink / SQL 引擎集成 |
| 指标服务化 | 提供统一 API、缓存、BI 直接调用 |
| 指标质量监控 | 规则引擎校验指标完整性、准确性,异常告警 |
| 权限与审计 | RBAC/ABAC权限管理,指标访问审计 |
| 版本管理 | 支持指标口径演进和历史回溯 |
六、技术架构示意
数据源层
└─ MySQL / Kafka / 文件 / 数据湖
ETL/ELT层
└─ Spark / Flink / SeaTunnel / Airflow 调度
数据仓库 / 数据湖
└─ Hive / Iceberg / Doris / ClickHouse
指标平台层
├─ 指标定义 + 血缘管理
├─ 指标计算引擎(批/流)
├─ 指标质量监控
├─ 指标服务化(API/SDK/BI接口)
└─ 指标版本与审计
消费层
└─ BI工具 / 数据分析师 / 数据产品
核心理念:统一定义 → 自动计算 → 可复用服务 → 可监控质量
七、开源与商用指标平台
| 类型 | 典型产品 | 特点 |
|---|---|---|
| 开源 | Apache Superset + DataHub(指标注册 + BI可视化) Feathr (LinkedIn) |
支持指标定义和服务化,适合数据湖/仓 |
| 商业 | Alation + Looker + Collibra Grow / Tableau Metrics Layer |
指标统一管理、血缘、权限、质量全栈,企业支持 |
目前企业实践中,很多公司是 自研指标平台,与元数据平台、数据湖和 ETL 紧密结合。
八、指标平台的核心价值
-
指标口径统一
- 避免不同报表、系统指标不一致
-
数据可信
- 血缘可追踪 → 异常快速定位
-
高复用性
- 指标服务化 → BI / 数据产品直接调用
-
监控与质量保障
- 指标自动校验 → SLA / 异常告警
-
治理与审计
- 指标版本管理 → 合规 & 回溯
九、建设建议
-
从少量核心指标做起
- 优先注册关键业务 KPI
-
指标口径优先
- 强调公式、维度、粒度统一
-
与元数据平台结合
- 血缘自动生成、质量校验
-
指标服务化
- 提供统一 API 或 BI 层调用
-
逐步扩展
- 扩展到实时指标、衍生指标、指标聚合层
十、总结一句话
指标平台 = 企业数据可信的“标准口径和服务化中心”,它让指标可复用、可追踪、可监控,是 BI、分析、决策的可信基础。
和报警中心的指标关系?
这是一个很关键的区分问题,很多企业把 指标平台 和 报警平台指标混淆,其实它们的关注点、计算方式和使用场景完全不同,但也存在联系。我们可以系统分析。
一、核心区别
| 维度 | 指标平台指标(Metrics/KPI) | 报警平台指标(Alert/Monitoring Metric) |
|---|---|---|
| 目的 | 业务度量,支持决策、分析、BI | 系统健康监控,支持运维和故障响应 |
| 关注对象 | 业务数据:订单数、GMV、活跃用户、转化率等 | 系统/应用性能:CPU、内存、延迟、错误率、队列积压 |
| 计算方式 | 批量或流式计算,强调统一口径、业务语义 | 实时/准实时采集,强调快速响应和 SLA |
| 粒度 | 按业务粒度(用户、产品、区域)、时间粒度(日/周/月) | 按系统维度(节点/服务/请求)、时间粒度(秒/分钟) |
| 存储方式 | 数据仓库 / 数据湖 / 指标服务 | 时序数据库(Prometheus、InfluxDB、OpenTSDB) |
| 数据来源 | ETL/ELT 作业、业务系统数据库、日志 | 系统监控 agent、应用埋点、日志、指标收集工具 |
| 更新频率 | 批次:分钟/小时/天;流式:秒到分钟 | 高频实时采集,秒级到分钟级 |
| 使用者 | 分析师、产品、业务管理者 | 运维、SRE、开发者 |
二、联系与融合点
虽然不同,但指标平台和报警指标有交集:
-
同源数据
- 指标平台的某些业务指标(比如交易成功率、支付失败率)可以同时作为运维报警指标
- 报警平台采集的系统指标也可入指标平台做历史趋势分析
-
血缘 & 元数据共享
- 指标平台的指标血缘可以帮助运维快速定位问题根因
- 报警平台的指标如果与业务指标挂钩,可以形成端到端可追踪链路
-
统一度量体系
- 企业可以把业务指标和系统指标统一定义到 元数据平台 或 指标平台
- 这样,报警触发规则和业务分析可以使用同一指标口径
-
BI + 报警联动
- 指标平台可提供 KPI 仪表盘
- 报警平台可在指标异常时触发告警 → 结合分析快速定位业务影响
三、举例说明
| 指标平台指标 | 报警平台指标 |
|---|---|
| 当日活跃用户数(DAU) | DAU 变化率异常报警(下降 >30%) |
| GMV(交易金额) | 支付失败率 > 5% 触发报警 |
| 新增订单数 | 后端订单处理队列长度 > 阈值报警 |
| 产品转化率 | API 请求延迟 > 2s 或错误率 > 1% 触发报警 |
核心区别:指标平台关注“业务分析”,报警平台关注“异常监控和告警”
四、实践建议
-
分层管理
- 指标平台:业务指标统一管理、口径治理
- 报警平台:系统指标/关键业务指标异常实时告警
-
指标复用
- 对于关键业务指标(支付成功率、活跃用户数),可以同时注册在 指标平台 + 报警平台
- 保证业务口径统一、告警可信
-
端到端可追踪
- 结合 元数据平台 + 指标平台 + 报警平台
- 形成从业务指标 → ETL/数据源 → 系统指标 → 告警 → 运维的全链路追踪
五、总结一句话
指标平台关注“业务度量与分析”,报警平台关注“系统健康与异常告警”,它们的数据可能来源重叠,但关注点和使用场景不同,关键是通过元数据和血缘实现端到端可追踪与口径统一。
