数据体系(Data Platform)

目标:让数据从“可采集”→“可信”→“可复用”→“可决策”

P0(数据基础)
├── 数据采集 / 埋点体系
├── 数据中台(数据湖 / 数据仓库)
├── ETL / ELT 平台(Airflow)

P1(数据可信)
├── 元数据平台(Data Catalog)
├── 指标平台
├── 数据质量平台(DQ)

P2(数据服务)
├── 数据 API 平台
├── 报表平台(BI)
├── 数据可视化平台

P3(数据资产化)
├── 数据资产管理
├── 数据权限与安全治理
├── 特征平台(Feature Store)

中间件体系的本质不是“技术选型”,而是“运行能力抽象”:

指标平台(Metrics Platform / KPI Platform)

好的,我们来系统、详细地展开 数据可信体系中的指标平台(Metrics / KPI Platform),从概念、核心功能、架构设计、实现方式到企业价值,以及它在数据中台和元数据平台中的位置。


一、什么是指标平台(Metrics Platform / KPI Platform)

指标平台 = 企业统一的“指标口径管理 + 计算 + 服务化系统”

核心目标:

  1. 统一指标口径

    • 避免不同报表/BI系统对同一指标计算不一致
    • 保证“数据可信”
  2. 提供可复用指标服务

    • 指标可以被 BI、报表、数据分析、数据产品直接调用
    • 支持实时 / 离线指标查询
  3. 监控指标质量

    • 指标计算正确性、完整性、延迟
    • 异常告警

二、指标平台管理的内容

指标平台不仅是指标计算工具,它是指标全生命周期管理系统,包括:

模块 内容 作用
指标定义管理 指标名称、业务语义、公式、维度、粒度 指标统一口径
指标血缘管理 上游数据源、ETL 作业、表、字段 根因分析、可追溯
指标计算引擎 批量计算、流式计算、实时计算 自动生成指标结果表或服务
指标服务化 API / SDK / BI接口 业务自助调用、复用
指标质量管理 完整性、准确性、延迟、异常告警 数据可信保障
指标版本管理 变更历史、口径演进 审计与回滚

三、指标平台与数据可信的关系

指标平台是数据可信体系中的关键组成:

原始数据 → ETL/ELT → 数据湖/数仓 → 元数据平台 → 指标平台 → BI / 数据产品
  • 元数据平台:管理“指标的来源、血缘、元信息”
  • 指标平台:管理“指标的计算逻辑、口径、服务化和质量监控”
  • 两者结合:保证指标可发现、可追踪、可复用、可审计

四、指标生命周期管理

指标平台关注 指标的全生命周期

  1. 定义阶段

    • 指标名称、业务语义、公式
    • 指标维度:时间粒度(日/周/月)、业务粒度(用户/订单/产品)
  2. 计算阶段

    • 批量指标:ETL/SQL定时计算
    • 实时指标:流式计算(Flink、Kafka Streams)
    • 数据服务:存储结果表或直接提供 API
  3. 校验阶段

    • 与元数据关联,验证源数据完整性、准确性
    • 校验历史趋势、异常波动
  4. 发布阶段

    • 提供 API / SDK / BI接口
    • 权限控制、审计日志记录
  5. 迭代阶段

    • 指标口径变更 → 版本管理
    • 上游变化 → 自动触发重新计算

五、核心功能模块

功能模块 详细描述
指标定义中心 集中定义指标公式、口径、维度,支持 SQL/DSL
指标血缘分析 自动解析 ETL/ELT 作业、表、字段,生成血缘图
指标计算引擎 支持批量/流式计算,可和 Spark / Flink / SQL 引擎集成
指标服务化 提供统一 API、缓存、BI 直接调用
指标质量监控 规则引擎校验指标完整性、准确性,异常告警
权限与审计 RBAC/ABAC权限管理,指标访问审计
版本管理 支持指标口径演进和历史回溯

六、技术架构示意

数据源层
 └─ MySQL / Kafka / 文件 / 数据湖

ETL/ELT层
 └─ Spark / Flink / SeaTunnel / Airflow 调度

数据仓库 / 数据湖
 └─ Hive / Iceberg / Doris / ClickHouse

指标平台层
 ├─ 指标定义 + 血缘管理
 ├─ 指标计算引擎(批/流)
 ├─ 指标质量监控
 ├─ 指标服务化(API/SDK/BI接口)
 └─ 指标版本与审计

消费层
 └─ BI工具 / 数据分析师 / 数据产品

核心理念:统一定义 → 自动计算 → 可复用服务 → 可监控质量


七、开源与商用指标平台

类型 典型产品 特点
开源 Apache Superset + DataHub(指标注册 + BI可视化)
Feathr (LinkedIn)
支持指标定义和服务化,适合数据湖/仓
商业 Alation + Looker + Collibra
Grow / Tableau Metrics Layer
指标统一管理、血缘、权限、质量全栈,企业支持

目前企业实践中,很多公司是 自研指标平台,与元数据平台、数据湖和 ETL 紧密结合。


八、指标平台的核心价值

  1. 指标口径统一

    • 避免不同报表、系统指标不一致
  2. 数据可信

    • 血缘可追踪 → 异常快速定位
  3. 高复用性

    • 指标服务化 → BI / 数据产品直接调用
  4. 监控与质量保障

    • 指标自动校验 → SLA / 异常告警
  5. 治理与审计

    • 指标版本管理 → 合规 & 回溯

九、建设建议

  1. 从少量核心指标做起

    • 优先注册关键业务 KPI
  2. 指标口径优先

    • 强调公式、维度、粒度统一
  3. 与元数据平台结合

    • 血缘自动生成、质量校验
  4. 指标服务化

    • 提供统一 API 或 BI 层调用
  5. 逐步扩展

    • 扩展到实时指标、衍生指标、指标聚合层

十、总结一句话

指标平台 = 企业数据可信的“标准口径和服务化中心”,它让指标可复用、可追踪、可监控,是 BI、分析、决策的可信基础。

和报警中心的指标关系?

这是一个很关键的区分问题,很多企业把 指标平台报警平台指标混淆,其实它们的关注点、计算方式和使用场景完全不同,但也存在联系。我们可以系统分析。


一、核心区别

维度 指标平台指标(Metrics/KPI) 报警平台指标(Alert/Monitoring Metric)
目的 业务度量,支持决策、分析、BI 系统健康监控,支持运维和故障响应
关注对象 业务数据:订单数、GMV、活跃用户、转化率等 系统/应用性能:CPU、内存、延迟、错误率、队列积压
计算方式 批量或流式计算,强调统一口径、业务语义 实时/准实时采集,强调快速响应和 SLA
粒度 按业务粒度(用户、产品、区域)、时间粒度(日/周/月) 按系统维度(节点/服务/请求)、时间粒度(秒/分钟)
存储方式 数据仓库 / 数据湖 / 指标服务 时序数据库(Prometheus、InfluxDB、OpenTSDB)
数据来源 ETL/ELT 作业、业务系统数据库、日志 系统监控 agent、应用埋点、日志、指标收集工具
更新频率 批次:分钟/小时/天;流式:秒到分钟 高频实时采集,秒级到分钟级
使用者 分析师、产品、业务管理者 运维、SRE、开发者

二、联系与融合点

虽然不同,但指标平台和报警指标有交集:

  1. 同源数据

    • 指标平台的某些业务指标(比如交易成功率、支付失败率)可以同时作为运维报警指标
    • 报警平台采集的系统指标也可入指标平台做历史趋势分析
  2. 血缘 & 元数据共享

    • 指标平台的指标血缘可以帮助运维快速定位问题根因
    • 报警平台的指标如果与业务指标挂钩,可以形成端到端可追踪链路
  3. 统一度量体系

    • 企业可以把业务指标和系统指标统一定义到 元数据平台指标平台
    • 这样,报警触发规则和业务分析可以使用同一指标口径
  4. BI + 报警联动

    • 指标平台可提供 KPI 仪表盘
    • 报警平台可在指标异常时触发告警 → 结合分析快速定位业务影响

三、举例说明

指标平台指标 报警平台指标
当日活跃用户数(DAU) DAU 变化率异常报警(下降 >30%)
GMV(交易金额) 支付失败率 > 5% 触发报警
新增订单数 后端订单处理队列长度 > 阈值报警
产品转化率 API 请求延迟 > 2s 或错误率 > 1% 触发报警

核心区别:指标平台关注“业务分析”,报警平台关注“异常监控和告警”


四、实践建议

  1. 分层管理

    • 指标平台:业务指标统一管理、口径治理
    • 报警平台:系统指标/关键业务指标异常实时告警
  2. 指标复用

    • 对于关键业务指标(支付成功率、活跃用户数),可以同时注册在 指标平台 + 报警平台
    • 保证业务口径统一、告警可信
  3. 端到端可追踪

    • 结合 元数据平台 + 指标平台 + 报警平台
    • 形成从业务指标 → ETL/数据源 → 系统指标 → 告警 → 运维的全链路追踪

五、总结一句话

指标平台关注“业务度量与分析”,报警平台关注“系统健康与异常告警”,它们的数据可能来源重叠,但关注点和使用场景不同,关键是通过元数据和血缘实现端到端可追踪与口径统一。