数据体系(Data Platform)
目标:让数据从“可采集”→“可信”→“可复用”→“可决策”
P0(数据基础)
├── 数据采集 / 埋点体系
├── 数据中台(数据湖 / 数据仓库)
├── ETL / ELT 平台(Airflow)
P1(数据可信)
├── 元数据平台(Data Catalog)
├── 指标平台
├── 数据质量平台(DQ)
P2(数据服务)
├── 数据 API 平台
├── 报表平台(BI)
├── 数据可视化平台
P3(数据资产化)
├── 数据资产管理
├── 数据权限与安全治理
├── 特征平台(Feature Store)
中间件体系的本质不是“技术选型”,而是“运行能力抽象”:
元数据平台(Data Catalog)
好的,我们来系统、详细地展开 数据可信体系中的元数据平台(Data Catalog),从概念、核心功能、架构、实现方式到企业价值,以及和数据湖/数仓/ETL的关系,给你一个全景理解。
一、什么是数据元数据平台(Data Catalog)
Data Catalog = 数据资产的“百科全书 + 导航系统”
它的本质不是存数据,而是存数据的描述信息(元数据),包括数据源、表、字段、血缘、指标口径、权限、质量等。
核心目标:
- 让数据可信:清楚数据来源、加工流程、使用规则
- 让数据可发现:业务/分析人员快速找到正确数据
- 让数据可治理:统一指标口径、管理访问和质量
二、元数据类型
一个完整的数据元数据平台,需要管理不同类型的元数据:
| 类型 | 内容示例 | 作用 |
|---|---|---|
| 结构元数据 | 表、字段、数据类型、表大小、索引 | 数据发现、建模、查询优化 |
| 业务元数据 | 指标定义、业务描述、标签 | 指标统一、业务理解、报表口径 |
| 操作元数据 | ETL/ELT作业、任务日志、数据更新频率 | 数据血缘、追踪问题 |
| 血缘元数据 | 上游表、下游表、作业依赖 | 根因分析、影响分析 |
| 数据质量元数据 | 完整性、唯一性、准确性、异常率 | 数据可信度评估、告警 |
| 权限元数据 | 谁可以访问、敏感字段 | 数据安全与合规 |
三、核心功能模块
一个企业级元数据平台通常包含以下模块:
-
数据资产登记
- 自动扫描数据源(数据库、数据湖、消息队列)
- 手动注册特殊数据资产
- 支持多数据源统一视图
-
数据血缘 & 依赖管理
- 追踪 ETL/ELT 作业源头到目标
- 支持批 + 流血缘分析
- 支持 SQL 解析自动生成血缘图
-
数据发现 & 搜索
- 数据资产全局检索
- 标签、分类、业务域过滤
- 数据集预览(schema、样本)
-
指标口径与业务语义管理
- 指标统一定义
- 时间粒度、聚合逻辑
- 防止不同系统出现口径差异
-
数据质量管理
- 指标计算与监控(完整率、唯一性、准确性)
- 异常告警
- 自动生成数据质量报告
-
数据安全与权限管理
- 访问控制(RBAC / ABAC)
- 敏感字段管理
- 合规审计(谁访问、谁修改、谁删除)
-
可视化与报告
- 数据资产地图
- 血缘可视化
- 数据质量报表
四、技术架构
企业级元数据平台通常与数据湖/数仓/ETL平台紧密集成,形成可信数据闭环:
数据源层
├─ 关系型数据库(MySQL/Oracle/PostgreSQL)
├─ NoSQL(MongoDB/Cassandra)
├─ 消息队列(Kafka/RocketMQ)
└─ 文件/对象存储(S3/MinIO)
数据接入层
├─ 自动扫描器(爬虫/采集器)
├─ ETL / ELT 作业提取血缘
└─ 流式监听(CDC / Debezium)
元数据管理层
├─ 元数据存储(Graph DB / RDBMS / Elasticsearch)
├─ 血缘引擎(DAG图 / 图数据库)
├─ 数据质量引擎
└─ 指标口径注册
服务与开放层
├─ API 服务(查询、搜索、血缘、质量)
├─ SDK / CLI
└─ UI 可视化门户
治理与安全层
├─ 权限控制(RBAC/ABAC)
├─ 审计日志
└─ 合规检查
核心理念:采集 + 存储 + 关联 + 服务化 + 可视化
五、开源与商业产品参考
| 平台 | 类型 | 特点 | 社区活跃度 / 企业适用 |
|---|---|---|---|
| Apache Atlas | 元数据管理 + 血缘 | Hadoop 生态深度集成,支持 Hive / HBase / Kafka 血缘 | 大企业多用于 Hadoop / Hive 场景 |
| Amundsen (Lyft) | 数据发现 + 血缘 | 轻量化,UI 友好,搜索强 | 适合数据湖 / Snowflake / Redshift 场景 |
| DataHub (LinkedIn) | 全栈元数据 | 血缘、质量、权限、指标统一管理 | 企业级多业务线使用,社区活跃 |
| OpenMetadata | 开源全栈元数据 | 支持批 + 流,内置血缘、质量、搜索、UI | 云原生 + 大数据 / 数据湖适用 |
| 商业产品 | Collibra、Alation、Talend | 功能完整、服务化、企业 SLA | 大型企业、金融、零售 |
六、与数据湖 / ETL / 数仓的关系
- 数据湖 / 数仓:存储原始 & 清洗数据,解决容量 & 查询问题
- ETL / ELT:构建数据流,保证数据可用、可分析
- 元数据平台:为数据可信提供“说明书 + 路径图”,管理血缘、口径、质量、权限
闭环效果:
数据源 → ETL/ELT → 数据湖/仓 → 元数据平台 → 可观测 + 业务使用
元数据平台是“数据可信的核心支撑层”,保证业务使用数据时可以放心、快速、准确。
七、核心价值
-
数据可信
- 明确数据来源、加工逻辑、质量状况
- 可追踪异常,快速定位根因
-
提升数据发现效率
- 支持业务分析师自助查询、复用数据集
- 减少重复开发 / 重复采集
-
指标统一 & 口径治理
- 统一 KPI 指标,避免不同报表口径冲突
-
安全合规
- 访问控制 + 审计日志
- 符合金融 / 医疗 / 政务监管要求
-
支持智能化
- 元数据可作为 AI / 自动化分析的基础
- 自动血缘分析、质量检测、异常告警
八、实施建议
-
从基础做起
- 先采集结构元数据(表、字段、作业)
- 建立血缘图
- 再增加业务元数据(指标、标签)
-
分阶段建设
- 第一期:数据资产发现 + 血缘
- 第二期:数据质量 + 指标口径
- 第三期:权限治理 + 审计 + 自动化
-
与 ETL / 数据湖结合
- ETL 作业输出日志 → 元数据平台解析生成血缘
- 数据湖表注册 → 元数据平台统一管理
- 业务指标在元数据平台注册 → 支持 BI 查询
-
UI + API
- 可视化门户让业务/分析人员自助探索
- API/SDK 提供给平台化任务调用
