数据体系(Data Platform)
目标:让数据从“可采集”→“可信”→“可复用”→“可决策”
P0(数据基础)
├── 数据采集 / 埋点体系
├── 数据中台(数据湖 / 数据仓库)
├── ETL / ELT 平台(Airflow)
P1(数据可信)
├── 元数据平台(Data Catalog)
├── 指标平台
├── 数据质量平台(DQ)
P2(数据服务)
├── 数据 API 平台
├── 报表平台(BI)
├── 数据可视化平台
P3(数据资产化)
├── 数据资产管理
├── 数据权限与安全治理
├── 特征平台(Feature Store)
中间件体系的本质不是“技术选型”,而是“运行能力抽象”:
数据资产管理(Data Asset Management)
下面我系统、工程化地 详细展开「数据资产管理(Data Asset Management)」。
我会刻意从“为什么要把数据当资产” → “资产是什么” → “怎么管” → “如何落地”这条线来讲,避免停留在抽象治理概念。
一、先把“数据资产”这件事讲清楚
一句话定义:
数据资产管理 = 把企业中的数据,从“技术副产品”升级为“可盘点、可定价、可授权、可运营”的资产体系。
如果没有数据资产管理,企业通常是:
- 有很多数据,但 不知道有哪些
- 知道有数据,但 不知道谁在用
- 在用数据,但 不清楚值不值钱、能不能复用
二、什么才算“数据资产”
非常关键的一点: 不是所有表都是资产,不是所有字段都值得管。
企业级数据资产通常包括:
-
结构化数据资产
- 业务表
- 指标
- 维度
-
半结构化 / 非结构化
- 日志
- 埋点事件
- 文件 / 文档
-
派生数据资产
- 标签
- 人群
- 特征
-
服务化资产
- 数据 API
- 数据服务
-
分析资产
- 报表
- 看板
- 模型输出
数据资产管理的对象,不只是“表”,而是“可被消费的数据形态”。
三、数据资产管理要解决的 5 个核心问题
1️⃣ 资产盘点:我到底有什么?
- 有多少数据表?
- 有多少指标?
- 分布在哪些系统?
- 属于哪个业务域?
→ 对应能力:资产目录(Data Catalog)
2️⃣ 资产理解:这东西是干嘛的?
- 指标口径是什么?
- 字段含义是什么?
- 数据从哪里来?
- 更新频率如何?
→ 对应能力:元数据管理 + 业务语义
3️⃣ 资产质量:值不值得用?
- 数据准不准?
- 是否缺失?
- 是否异常?
→ 对应能力:数据质量管理(DQ)
4️⃣ 资产权限:谁能用?
- 谁可以看?
- 能看到多少?
- 是否需要脱敏?
→ 对应能力:数据安全与权限治理
5️⃣ 资产价值:有没有人在用?值多少钱?
- 调用量
- 覆盖业务数
- 支撑决策数
→ 对应能力:资产运营与价值评估
四、数据资产管理核心模块拆解
1. 数据资产目录(Asset Catalog)
这是“入口”。
典型能力:
- 数据资产列表(表 / 指标 / API / 报表)
- 分类体系(业务域 / 数据域)
- 搜索(关键词 / 标签)
- 热度、评分、使用频次
类似企业内部的“数据 App Store”。
2. 元数据管理(Metadata)
技术元数据
- 表结构
- 字段类型
- 分区
- 存储位置
业务元数据
- 指标口径
- 字段含义
- 业务负责人
过程元数据
- ETL 作业
- 数据血缘
- 影响分析
3. 数据血缘与影响分析
解决的问题:
- 一个字段改了,影响哪些报表?
- 一个指标异常,源头在哪?
血缘链路:
源表 → ETL → 中间表 → 指标 → API → 报表
这是数据资产“可维护性”的核心。
4. 数据质量关联
每个资产都应该能看到:
- 当前质量状态(健康 / 异常)
- 历史质量趋势
- 质量规则
没有质量背书的资产,本质是“高风险资产”。
5. 权限与合规管理
资产维度权限:
- 查看资产目录
- 申请使用
- 实际访问
合规能力:
- 敏感资产标记
- 数据脱敏策略
- 审计日志
6. 数据资产运营(很多公司没做到)
这是“中台价值”的真正体现。
典型指标
- 资产被引用次数
- 支撑系统数量
- 使用频率
- 最近活跃时间
运营动作
- 冷资产下线
- 热资产优化
- 资产复用推荐
五、数据资产管理平台的整体架构
数据源 / 数仓 / 数据湖
→ 元数据采集
→ 数据资产管理平台
├─ 资产目录
├─ 元数据管理
├─ 血缘分析
├─ 质量关联
├─ 权限与合规
├─ 资产运营
→ 数据服务 / BI / API
六、与“数据中台”的关系
你前面问过“中台值不值”,这里正好串起来:
数据中台的“中”,核心体现之一就是“数据资产可复用”。
而数据资产管理,就是:
- 把中台里的数据 变成可用资产
- 把资产 运营起来
七、常见开源 / 商业方案
开源
- Apache Atlas(元数据 + 血缘)
- DataHub(LinkedIn)
- OpenMetadata
- Amundsen
商业
- Collibra
- Alation
- 阿里 DataWorks 数据资产
- 腾讯数据资产平台
八、为什么很多公司“做了但没用”
典型失败原因:
- 只做技术元数据
- 没有业务参与
- 资产没有“入口”
- 没有运营指标
- 没有和数据服务打通
一句话总结:
不被用的数据资产平台,本质是“高级文档系统”。
九、落地建议(非常重要)
Step 1:先盘点核心资产
- 核心指标
- 核心表
- 核心 API
Step 2:绑定责任人
- 每个资产有 Owner
Step 3:打通消费链路
- 资产 → API → BI
