数据体系(Data Platform)

目标:让数据从“可采集”→“可信”→“可复用”→“可决策”

P0(数据基础)
├── 数据采集 / 埋点体系
├── 数据中台(数据湖 / 数据仓库)
├── ETL / ELT 平台(Airflow)

P1(数据可信)
├── 元数据平台(Data Catalog)
├── 指标平台
├── 数据质量平台(DQ)

P2(数据服务)
├── 数据 API 平台
├── 报表平台(BI)
├── 数据可视化平台

P3(数据资产化)
├── 数据资产管理
├── 数据权限与安全治理
├── 特征平台(Feature Store)

中间件体系的本质不是“技术选型”,而是“运行能力抽象”:

数据资产管理(Data Asset Management)

下面我系统、工程化地 详细展开「数据资产管理(Data Asset Management)」

我会刻意从“为什么要把数据当资产” → “资产是什么” → “怎么管” → “如何落地”这条线来讲,避免停留在抽象治理概念。


一、先把“数据资产”这件事讲清楚

一句话定义:

数据资产管理 = 把企业中的数据,从“技术副产品”升级为“可盘点、可定价、可授权、可运营”的资产体系。

如果没有数据资产管理,企业通常是:

  • 有很多数据,但 不知道有哪些
  • 知道有数据,但 不知道谁在用
  • 在用数据,但 不清楚值不值钱、能不能复用

二、什么才算“数据资产”

非常关键的一点: 不是所有表都是资产,不是所有字段都值得管。

企业级数据资产通常包括:

  1. 结构化数据资产

    • 业务表
    • 指标
    • 维度
  2. 半结构化 / 非结构化

    • 日志
    • 埋点事件
    • 文件 / 文档
  3. 派生数据资产

    • 标签
    • 人群
    • 特征
  4. 服务化资产

    • 数据 API
    • 数据服务
  5. 分析资产

    • 报表
    • 看板
    • 模型输出

数据资产管理的对象,不只是“表”,而是“可被消费的数据形态”


三、数据资产管理要解决的 5 个核心问题

1️⃣ 资产盘点:我到底有什么?

  • 有多少数据表?
  • 有多少指标?
  • 分布在哪些系统?
  • 属于哪个业务域?

→ 对应能力:资产目录(Data Catalog)


2️⃣ 资产理解:这东西是干嘛的?

  • 指标口径是什么?
  • 字段含义是什么?
  • 数据从哪里来?
  • 更新频率如何?

→ 对应能力:元数据管理 + 业务语义


3️⃣ 资产质量:值不值得用?

  • 数据准不准?
  • 是否缺失?
  • 是否异常?

→ 对应能力:数据质量管理(DQ)


4️⃣ 资产权限:谁能用?

  • 谁可以看?
  • 能看到多少?
  • 是否需要脱敏?

→ 对应能力:数据安全与权限治理


5️⃣ 资产价值:有没有人在用?值多少钱?

  • 调用量
  • 覆盖业务数
  • 支撑决策数

→ 对应能力:资产运营与价值评估


四、数据资产管理核心模块拆解

1. 数据资产目录(Asset Catalog)

这是“入口”。

典型能力:

  • 数据资产列表(表 / 指标 / API / 报表)
  • 分类体系(业务域 / 数据域)
  • 搜索(关键词 / 标签)
  • 热度、评分、使用频次

类似企业内部的“数据 App Store”。


2. 元数据管理(Metadata)

技术元数据

  • 表结构
  • 字段类型
  • 分区
  • 存储位置

业务元数据

  • 指标口径
  • 字段含义
  • 业务负责人

过程元数据

  • ETL 作业
  • 数据血缘
  • 影响分析

3. 数据血缘与影响分析

解决的问题:

  • 一个字段改了,影响哪些报表?
  • 一个指标异常,源头在哪?

血缘链路:

源表 → ETL → 中间表 → 指标 → API → 报表

这是数据资产“可维护性”的核心。


4. 数据质量关联

每个资产都应该能看到:

  • 当前质量状态(健康 / 异常)
  • 历史质量趋势
  • 质量规则

没有质量背书的资产,本质是“高风险资产”。


5. 权限与合规管理

资产维度权限:

  • 查看资产目录
  • 申请使用
  • 实际访问

合规能力:

  • 敏感资产标记
  • 数据脱敏策略
  • 审计日志

6. 数据资产运营(很多公司没做到)

这是“中台价值”的真正体现。

典型指标

  • 资产被引用次数
  • 支撑系统数量
  • 使用频率
  • 最近活跃时间

运营动作

  • 冷资产下线
  • 热资产优化
  • 资产复用推荐

五、数据资产管理平台的整体架构

数据源 / 数仓 / 数据湖
 → 元数据采集
 → 数据资产管理平台
    ├─ 资产目录
    ├─ 元数据管理
    ├─ 血缘分析
    ├─ 质量关联
    ├─ 权限与合规
    ├─ 资产运营
 → 数据服务 / BI / API

六、与“数据中台”的关系

你前面问过“中台值不值”,这里正好串起来:

数据中台的“中”,核心体现之一就是“数据资产可复用”。

而数据资产管理,就是:

  • 把中台里的数据 变成可用资产
  • 把资产 运营起来

七、常见开源 / 商业方案

开源

  • Apache Atlas(元数据 + 血缘)
  • DataHub(LinkedIn)
  • OpenMetadata
  • Amundsen

商业

  • Collibra
  • Alation
  • 阿里 DataWorks 数据资产
  • 腾讯数据资产平台

八、为什么很多公司“做了但没用”

典型失败原因:

  1. 只做技术元数据
  2. 没有业务参与
  3. 资产没有“入口”
  4. 没有运营指标
  5. 没有和数据服务打通

一句话总结:

不被用的数据资产平台,本质是“高级文档系统”。


九、落地建议(非常重要)

Step 1:先盘点核心资产

  • 核心指标
  • 核心表
  • 核心 API

Step 2:绑定责任人

  • 每个资产有 Owner

Step 3:打通消费链路

  • 资产 → API → BI

Step 4:用“使用量”说话