数据体系(Data Platform)

目标:让数据从“可采集”→“可信”→“可复用”→“可决策”

P0(数据基础)
├── 数据采集 / 埋点体系
├── 数据中台(数据湖 / 数据仓库)
├── ETL / ELT 平台(Airflow)

P1(数据可信)
├── 元数据平台(Data Catalog)
├── 指标平台
├── 数据质量平台(DQ)

P2(数据服务)
├── 数据 API 平台
├── 报表平台(BI)
├── 数据可视化平台

P3(数据资产化)
├── 数据资产管理
├── 数据权限与安全治理
├── 特征平台(Feature Store)

中间件体系的本质不是“技术选型”,而是“运行能力抽象”:

元数据平台(Data Catalog)

好的,我们来系统、详细地展开 数据可信体系中的元数据平台(Data Catalog),从概念、核心功能、架构、实现方式到企业价值,以及和数据湖/数仓/ETL的关系,给你一个全景理解。


一、什么是数据元数据平台(Data Catalog)

Data Catalog = 数据资产的“百科全书 + 导航系统”

它的本质不是存数据,而是存数据的描述信息(元数据),包括数据源、表、字段、血缘、指标口径、权限、质量等。

核心目标:

  • 让数据可信:清楚数据来源、加工流程、使用规则
  • 让数据可发现:业务/分析人员快速找到正确数据
  • 让数据可治理:统一指标口径、管理访问和质量

二、元数据类型

一个完整的数据元数据平台,需要管理不同类型的元数据:

类型 内容示例 作用
结构元数据 表、字段、数据类型、表大小、索引 数据发现、建模、查询优化
业务元数据 指标定义、业务描述、标签 指标统一、业务理解、报表口径
操作元数据 ETL/ELT作业、任务日志、数据更新频率 数据血缘、追踪问题
血缘元数据 上游表、下游表、作业依赖 根因分析、影响分析
数据质量元数据 完整性、唯一性、准确性、异常率 数据可信度评估、告警
权限元数据 谁可以访问、敏感字段 数据安全与合规

三、核心功能模块

一个企业级元数据平台通常包含以下模块:

  1. 数据资产登记

    • 自动扫描数据源(数据库、数据湖、消息队列)
    • 手动注册特殊数据资产
    • 支持多数据源统一视图
  2. 数据血缘 & 依赖管理

    • 追踪 ETL/ELT 作业源头到目标
    • 支持批 + 流血缘分析
    • 支持 SQL 解析自动生成血缘图
  3. 数据发现 & 搜索

    • 数据资产全局检索
    • 标签、分类、业务域过滤
    • 数据集预览(schema、样本)
  4. 指标口径与业务语义管理

    • 指标统一定义
    • 时间粒度、聚合逻辑
    • 防止不同系统出现口径差异
  5. 数据质量管理

    • 指标计算与监控(完整率、唯一性、准确性)
    • 异常告警
    • 自动生成数据质量报告
  6. 数据安全与权限管理

    • 访问控制(RBAC / ABAC)
    • 敏感字段管理
    • 合规审计(谁访问、谁修改、谁删除)
  7. 可视化与报告

    • 数据资产地图
    • 血缘可视化
    • 数据质量报表

四、技术架构

企业级元数据平台通常与数据湖/数仓/ETL平台紧密集成,形成可信数据闭环

数据源层
 ├─ 关系型数据库(MySQL/Oracle/PostgreSQL)
 ├─ NoSQL(MongoDB/Cassandra)
 ├─ 消息队列(Kafka/RocketMQ)
 └─ 文件/对象存储(S3/MinIO)

数据接入层
 ├─ 自动扫描器(爬虫/采集器)
 ├─ ETL / ELT 作业提取血缘
 └─ 流式监听(CDC / Debezium)

元数据管理层
 ├─ 元数据存储(Graph DB / RDBMS / Elasticsearch)
 ├─ 血缘引擎(DAG图 / 图数据库)
 ├─ 数据质量引擎
 └─ 指标口径注册

服务与开放层
 ├─ API 服务(查询、搜索、血缘、质量)
 ├─ SDK / CLI
 └─ UI 可视化门户

治理与安全层
 ├─ 权限控制(RBAC/ABAC)
 ├─ 审计日志
 └─ 合规检查

核心理念:采集 + 存储 + 关联 + 服务化 + 可视化


五、开源与商业产品参考

平台 类型 特点 社区活跃度 / 企业适用
Apache Atlas 元数据管理 + 血缘 Hadoop 生态深度集成,支持 Hive / HBase / Kafka 血缘 大企业多用于 Hadoop / Hive 场景
Amundsen (Lyft) 数据发现 + 血缘 轻量化,UI 友好,搜索强 适合数据湖 / Snowflake / Redshift 场景
DataHub (LinkedIn) 全栈元数据 血缘、质量、权限、指标统一管理 企业级多业务线使用,社区活跃
OpenMetadata 开源全栈元数据 支持批 + 流,内置血缘、质量、搜索、UI 云原生 + 大数据 / 数据湖适用
商业产品 Collibra、Alation、Talend 功能完整、服务化、企业 SLA 大型企业、金融、零售

六、与数据湖 / ETL / 数仓的关系

  1. 数据湖 / 数仓:存储原始 & 清洗数据,解决容量 & 查询问题
  2. ETL / ELT:构建数据流,保证数据可用、可分析
  3. 元数据平台:为数据可信提供“说明书 + 路径图”,管理血缘、口径、质量、权限

闭环效果

数据源 → ETL/ELT → 数据湖/仓 → 元数据平台 → 可观测 + 业务使用

元数据平台是“数据可信的核心支撑层”,保证业务使用数据时可以放心、快速、准确。


七、核心价值

  1. 数据可信

    • 明确数据来源、加工逻辑、质量状况
    • 可追踪异常,快速定位根因
  2. 提升数据发现效率

    • 支持业务分析师自助查询、复用数据集
    • 减少重复开发 / 重复采集
  3. 指标统一 & 口径治理

    • 统一 KPI 指标,避免不同报表口径冲突
  4. 安全合规

    • 访问控制 + 审计日志
    • 符合金融 / 医疗 / 政务监管要求
  5. 支持智能化

    • 元数据可作为 AI / 自动化分析的基础
    • 自动血缘分析、质量检测、异常告警

八、实施建议

  1. 从基础做起

    • 先采集结构元数据(表、字段、作业)
    • 建立血缘图
    • 再增加业务元数据(指标、标签)
  2. 分阶段建设

    • 第一期:数据资产发现 + 血缘
    • 第二期:数据质量 + 指标口径
    • 第三期:权限治理 + 审计 + 自动化
  3. 与 ETL / 数据湖结合

    • ETL 作业输出日志 → 元数据平台解析生成血缘
    • 数据湖表注册 → 元数据平台统一管理
    • 业务指标在元数据平台注册 → 支持 BI 查询
  4. UI + API

    • 可视化门户让业务/分析人员自助探索
    • API/SDK 提供给平台化任务调用