数据体系（Data Platform）

目标：让数据从“可采集”→“可信”→“可复用”→“可决策”

P0（数据基础）
├── 数据采集 / 埋点体系
├── 数据中台（数据湖 / 数据仓库）
├── ETL / ELT 平台（Airflow）

P1（数据可信）
├── 元数据平台（Data Catalog）
├── 指标平台
├── 数据质量平台（DQ）

P2（数据服务）
├── 数据 API 平台
├── 报表平台（BI）
├── 数据可视化平台

P3（数据资产化）
├── 数据资产管理
├── 数据权限与安全治理
├── 特征平台（Feature Store）

中间件体系的本质不是“技术选型”，而是“运行能力抽象”：

前端开源埋点组件 / SDK

下面我从工程可落地、企业可长期使用的角度，系统梳理一批前端开源埋点组件 / SDK，并明确它们各自适合什么阶段、什么场景、有什么坑。这不是简单罗列，而是选型指南。

一、先给结论（快速选型）

如果只给你一句话结论：

大多数企业最终都会走向：自研埋点 SDK + 借鉴成熟开源方案的设计思想，而不是直接“拿来即用”。

原因：事件模型、数据规范、治理能力，远比 SDK 本身重要。

二、前端埋点的 4 种主流形态

类型	代表	本质
代码埋点 SDK	Sensors SDK	强规范、强治理
无埋点（自动采集）	OpenReplay	DOM / 行为捕获
可视化埋点	GrowingIO	配置驱动
通用埋点基础库	OpenTelemetry JS	统一可观测

下面按这 4 类展开。

三、代码埋点类（最成熟、最企业级）

1. Sensors Analytics JS SDK（神策）

开源情况：

SDK 核心开源（MIT）
后端平台闭源（商业）

特点

事件模型非常成熟
强约束（字段类型、公共属性）
适合复杂业务

优点

规范化程度高
文档完善
大厂验证充分

不足

偏“产品型”，自定义空间有限
治理思路强，但平台绑定重

适合谁

希望快速建立标准埋点体系
不打算完全自研分析平台

2. 自研 SDK（参考型）

很多大厂（阿里 / 美团 / 字节）最终都是自研 SDK，但：

SDK 并不复杂，复杂的是规范和治理。

典型能力包括：

event(name, properties)
公共上下文注入
异步队列 + 批量发送
失败重试
灰度开关

四、无埋点 / 自动采集类（技术上很漂亮）

3. OpenReplay

GitHub：完全开源 核心定位：用户行为回放 + 自动采集

能力

DOM 事件自动采集
用户操作回放
类似 FullStory

优点

上手极快
非侵入
对研发干扰小

明显问题（企业级视角）

语义弱（不知道“业务含义”）
数据量极大
合规风险高（隐私）

适合场景

UX 分析
问题回溯
辅助调试

不适合作为“核心业务指标埋点体系”。

五、可视化埋点（产品驱动型）

4. GrowingIO SDK（部分开源）

特点

页面元素级绑定
不改代码即可加埋点

优点

对前端侵入低
运营友好

风险点（非常重要）

DOM 变化导致埋点失效
版本不可控
埋点不可审计

真实结论

可视化埋点只能作为补充，不能作为主干。

六、通用可观测埋点（强烈建议关注）

5. OpenTelemetry JS

这是很多人忽略但极其关键的一条线。

本质

不是“用户行为埋点”
而是 统一事件 / Trace / Metrics 采集规范

能力

自定义 Event
Trace Context 传递
与后端 / 服务网格打通

为什么重要

结合你的背景（监控 / 告警 / 根因分析）：

前端行为事件 + 后端 Trace = 真正的全链路因果分析。

典型用法

前端行为 → Trace Span Event
和后端请求自动关联
用于根因分析、性能分析

七、如果你要“企业级正确姿势”

八、选型时一定要问的 8 个问题

事件 Schema 是否可控？
字段是否可演进？
是否支持埋点治理？
是否支持灰度？
是否支持埋点质量监控？
是否能和后端 Trace 关联？
数据量是否可控？
合规风险如何？

如果答不上来，一定会踩坑。

九、和你当前体系的强关联

结合你正在构思的：

数据平台
监控 & 告警
AI 根因分析系统

前端埋点不是“业务分析工具”，而是：

统一可观测数据源的一部分。

参考资料

如何基于标准化的OpenTelemetry构建APM探针能力

数据体系（Data Platform）
前端开源埋点组件 / SDK
参考资料

成熟企业级技术平台-092-数据采集开源组件