数据体系(Data Platform)
目标:让数据从“可采集”→“可信”→“可复用”→“可决策”
P0(数据基础)
├── 数据采集 / 埋点体系
├── 数据中台(数据湖 / 数据仓库)
├── ETL / ELT 平台(Airflow)
P1(数据可信)
├── 元数据平台(Data Catalog)
├── 指标平台
├── 数据质量平台(DQ)
P2(数据服务)
├── 数据 API 平台
├── 报表平台(BI)
├── 数据可视化平台
P3(数据资产化)
├── 数据资产管理
├── 数据权限与安全治理
├── 特征平台(Feature Store)
中间件体系的本质不是“技术选型”,而是“运行能力抽象”:
数据服务 – 报表平台(BI, Business Intelligence)
下面我从企业级数据体系视角,对 数据服务 – 报表平台(BI, Business Intelligence) 做一次完整、可落地的展开。
我会刻意把它与 数据 API 平台、指标平台、报警平台 的边界讲清楚,避免“BI 什么都干、结果谁都不信”的典型问题。
一、BI 报表平台到底是什么
一句话定义:
BI 报表平台 = 面向“人”的数据消费与决策支持平台,用于把可信数据以可视化、可交互的方式呈现出来。
核心关键词只有三个:
- 看得懂
- 可对比
- 可决策
它不是“查数据的工具”,而是“辅助决策的系统”。
二、BI 在整个数据体系中的位置
数据源
→ ETL / ELT
→ 数据湖 / 数仓
→ 指标平台(口径定义)
→ 数据质量平台(可信保障)
→ 📌 数据服务层
├─ 数据 API 平台(给系统)
└─ BI 报表平台(给人)
非常重要的一点: BI 不应该直接定义指标,只负责消费指标。
三、BI 报表平台解决的核心问题
1️⃣ 信息不对称
- 管理层看不到整体
- 业务只能看局部
- 技术看到的是表,不是业务
2️⃣ 决策滞后
- 数据慢
- 报表出不来
- 结论靠拍脑袋
3️⃣ 指标混乱
- 同一个指标多个口径
- 不同部门各算各的
BI 平台存在的意义是:
把“数据”转化为“洞察”,再转化为“行动依据”。
四、BI 报表平台的核心能力拆解
1. 报表建模与语义层消费
BI 不应该做的事
- 自己写 SQL 定义指标
- 自己维护指标口径
BI 正确的输入
-
来自 指标平台 的:
- 原子指标
- 复合指标
- 维度模型
BI 做的是:
- 选择指标
- 选择维度
- 选择时间
- 组合成视图
2. 报表类型体系(企业级)
| 报表类型 | 面向人群 | 特点 |
|---|---|---|
| 经营看板 | 高层 / 管理者 | 概览、趋势、同比环比 |
| 业务分析报表 | 产品 / 运营 | 多维分析、下钻 |
| 专题分析 | 专项项目 | 自定义、探索性 |
| 明细报表 | 一线人员 | 可导出、可过滤 |
| 实时大屏 | 监控 / 运营 | 自动刷新、强视觉 |
3. 可视化与交互能力
可视化组件
- 折线 / 柱状 / 堆叠
- 漏斗 / 留存
- 地图 / 热力图
- 指标卡 / KPI 卡
- 表格(极其重要)
交互能力
- 下钻(Drill Down)
- 上卷(Roll Up)
- 过滤器
- 联动
- 时间对比(同比 / 环比)
BI 的核心不是“图多”,而是交互路径是否符合分析逻辑。
4. 权限与数据安全(BI 极易被忽视)
权限维度
| 维度 | 示例 |
|---|---|
| 报表级 | 是否能看到某报表 |
| 指标级 | 是否能看到 GMV |
| 维度级 | 是否能看到渠道 |
| 行级 | 只能看自己部门 |
常见问题
- 报表截图外传
- 导出 Excel 泄密
企业级 BI 必须支持:
- 行级权限
- 导出水印
- 访问审计
5. 性能与体验
BI 用户最怕:
- 打开报表要等 30 秒
- 一过滤就卡死
核心能力:
- 查询超时控制
- 缓存(报表级 / 指标级)
- 预聚合
- 查询路由(热数据 / 冷数据)
6. 数据可信与解释能力
BI 必须回答的问题
- 这个指标怎么定义的?
- 数据什么时候更新?
- 今天的数据可靠吗?
BI 应该天然集成:
- 指标口径说明
- 数据质量状态(是否异常)
- 更新时间 / 延迟提示
这是 BI 信任度的关键。
五、BI 平台典型架构
用户
├─ 管理层
├─ 业务人员
└─ 数据分析师
↓ BI Web / Client
BI 服务层
├─ 报表引擎
├─ 交互引擎
├─ 权限控制
├─ 缓存 & 加速
↓ 数据服务层
数据 API 平台 / 指标 API
↓
OLAP 引擎
(ClickHouse / Doris / StarRocks)
推荐:BI 只通过数据 API / 指标层访问数据
六、BI vs 数据 API 平台的边界
| 维度 | BI 报表平台 | 数据 API 平台 |
|---|---|---|
| 面向对象 | 人 | 系统 |
| 输出形式 | 图表 / 报表 | JSON / 数据流 |
| 使用方式 | 浏览 / 交互 | 程序调用 |
| 容错性 | 低(体验敏感) | 高(服务治理) |
| 权限 | 人维度 | 系统 + 人 |
七、常见开源 / 商业 BI 平台
开源
- Apache Superset(最主流)
- Metabase(轻量)
- Redash
- Grafana(偏监控)
商业
- Tableau
- Power BI
- FineBI
- Quick BI(阿里)
八、常见失败模式(非常重要)
- BI 直接连数仓 → 指标口径失控
- BI 自定义 SQL → 指标不可复用
- 没有指标平台 → 每张报表都是孤岛
- 没有 DQ → 报表天天被质疑
- 没有权限治理 → 数据泄露风险极高
九、推荐落地路径
阶段 1:可用
- 搭 BI
- 接数仓
- 做基础报表
阶段 2:可信
- 接指标平台
- 接数据质量状态
阶段 3:可治理
- 权限、审计
- API 化访问
