数据体系(Data Platform)

目标:让数据从“可采集”→“可信”→“可复用”→“可决策”

P0(数据基础)
├── 数据采集 / 埋点体系
├── 数据中台(数据湖 / 数据仓库)
├── ETL / ELT 平台(Airflow)

P1(数据可信)
├── 元数据平台(Data Catalog)
├── 指标平台
├── 数据质量平台(DQ)

P2(数据服务)
├── 数据 API 平台
├── 报表平台(BI)
├── 数据可视化平台

P3(数据资产化)
├── 数据资产管理
├── 数据权限与安全治理
├── 特征平台(Feature Store)

中间件体系的本质不是“技术选型”,而是“运行能力抽象”:

数据服务 – 报表平台(BI, Business Intelligence)

下面我从企业级数据体系视角,对 数据服务 – 报表平台(BI, Business Intelligence) 做一次完整、可落地的展开

我会刻意把它与 数据 API 平台、指标平台、报警平台 的边界讲清楚,避免“BI 什么都干、结果谁都不信”的典型问题。


一、BI 报表平台到底是什么

一句话定义:

BI 报表平台 = 面向“人”的数据消费与决策支持平台,用于把可信数据以可视化、可交互的方式呈现出来。

核心关键词只有三个:

  • 看得懂
  • 可对比
  • 可决策

它不是“查数据的工具”,而是“辅助决策的系统”。


二、BI 在整个数据体系中的位置

数据源
 → ETL / ELT
 → 数据湖 / 数仓
 → 指标平台(口径定义)
 → 数据质量平台(可信保障)
 → 📌 数据服务层
    ├─ 数据 API 平台(给系统)
    └─ BI 报表平台(给人)

非常重要的一点: BI 不应该直接定义指标,只负责消费指标。


三、BI 报表平台解决的核心问题

1️⃣ 信息不对称

  • 管理层看不到整体
  • 业务只能看局部
  • 技术看到的是表,不是业务

2️⃣ 决策滞后

  • 数据慢
  • 报表出不来
  • 结论靠拍脑袋

3️⃣ 指标混乱

  • 同一个指标多个口径
  • 不同部门各算各的

BI 平台存在的意义是:

把“数据”转化为“洞察”,再转化为“行动依据”。


四、BI 报表平台的核心能力拆解

1. 报表建模与语义层消费

BI 不应该做的事

  • 自己写 SQL 定义指标
  • 自己维护指标口径

BI 正确的输入

  • 来自 指标平台 的:

    • 原子指标
    • 复合指标
    • 维度模型

BI 做的是:

  • 选择指标
  • 选择维度
  • 选择时间
  • 组合成视图

2. 报表类型体系(企业级)

报表类型 面向人群 特点
经营看板 高层 / 管理者 概览、趋势、同比环比
业务分析报表 产品 / 运营 多维分析、下钻
专题分析 专项项目 自定义、探索性
明细报表 一线人员 可导出、可过滤
实时大屏 监控 / 运营 自动刷新、强视觉

3. 可视化与交互能力

可视化组件

  • 折线 / 柱状 / 堆叠
  • 漏斗 / 留存
  • 地图 / 热力图
  • 指标卡 / KPI 卡
  • 表格(极其重要)

交互能力

  • 下钻(Drill Down)
  • 上卷(Roll Up)
  • 过滤器
  • 联动
  • 时间对比(同比 / 环比)

BI 的核心不是“图多”,而是交互路径是否符合分析逻辑


4. 权限与数据安全(BI 极易被忽视)

权限维度

维度 示例
报表级 是否能看到某报表
指标级 是否能看到 GMV
维度级 是否能看到渠道
行级 只能看自己部门

常见问题

  • 报表截图外传
  • 导出 Excel 泄密

企业级 BI 必须支持:

  • 行级权限
  • 导出水印
  • 访问审计

5. 性能与体验

BI 用户最怕:

  • 打开报表要等 30 秒
  • 一过滤就卡死

核心能力:

  • 查询超时控制
  • 缓存(报表级 / 指标级)
  • 预聚合
  • 查询路由(热数据 / 冷数据)

6. 数据可信与解释能力

BI 必须回答的问题

  • 这个指标怎么定义的?
  • 数据什么时候更新?
  • 今天的数据可靠吗?

BI 应该天然集成:

  • 指标口径说明
  • 数据质量状态(是否异常)
  • 更新时间 / 延迟提示

这是 BI 信任度的关键。


五、BI 平台典型架构

用户
 ├─ 管理层
 ├─ 业务人员
 └─ 数据分析师

↓ BI Web / Client

BI 服务层
 ├─ 报表引擎
 ├─ 交互引擎
 ├─ 权限控制
 ├─ 缓存 & 加速

↓ 数据服务层

数据 API 平台 / 指标 API
 ↓
OLAP 引擎
(ClickHouse / Doris / StarRocks)

推荐:BI 只通过数据 API / 指标层访问数据


六、BI vs 数据 API 平台的边界

维度 BI 报表平台 数据 API 平台
面向对象 系统
输出形式 图表 / 报表 JSON / 数据流
使用方式 浏览 / 交互 程序调用
容错性 低(体验敏感) 高(服务治理)
权限 人维度 系统 + 人

七、常见开源 / 商业 BI 平台

开源

  • Apache Superset(最主流)
  • Metabase(轻量)
  • Redash
  • Grafana(偏监控)

商业

  • Tableau
  • Power BI
  • FineBI
  • Quick BI(阿里)

八、常见失败模式(非常重要)

  1. BI 直接连数仓 → 指标口径失控
  2. BI 自定义 SQL → 指标不可复用
  3. 没有指标平台 → 每张报表都是孤岛
  4. 没有 DQ → 报表天天被质疑
  5. 没有权限治理 → 数据泄露风险极高

九、推荐落地路径

阶段 1:可用

  • 搭 BI
  • 接数仓
  • 做基础报表

阶段 2:可信

  • 接指标平台
  • 接数据质量状态

阶段 3:可治理

  • 权限、审计
  • API 化访问

阶段 4:决策化