推荐流程
1. 准备阶段:
-
在我们的技术支持下,完成数据分析需求的梳理;
-
根据需求完成行为事件的初步划分,以及关键用户 Profile 的设计;
-
完成神策分析的系统安装。
2. 试用阶段:
-
从已有的数据库或者历史日志中,按照我们指定的数据格式,导出一批历史数据;
-
使用批量导入工具,将历史数据导入到系统中;
-
在已导入的这批数据上,使用产品,完成一些数据分析工作;
-
根据需求和使用情况,修改事件模型或者增加相应的属性;
-
经过迭代,能够满足需求后,确认最终的事件模型。
线上使用阶段:
-
清空试用环境数据;
-
通过 LogAgent 实时传入日志,或者使用我们提供的各种客户端或者后端 SDK 来实时传入数据;
-
结合具体的业务需求,使用抽象的各个数据分析模型,生成所关心的核心指标,可以保存核心指标为书签,还可以将书签添加到数据概览中展示;
-
当有业务场景需要进行具体的分析:例如转化率突然下降,希望分析是哪个渠道的问题;或者是想具体分析在转化时流失的用户的具体情况等,则可以相应使用具体的功能。
常用名词
维度
维度描述的是一个事物身上所具备的特征或属性。
比如一个人属于什么性别,生活在哪个城市,喜欢什么颜色,这些都是这个人身上所具备的属性特征。
而在网站分析领域,维度往往用来描述和分析指标,比如单一的访问数指标并不能告诉你太多信息,一旦加上来源这个维度,就马上变得有意义了。
指标
指标,即具体的数值。比如访客、页面浏览量、停留时长都属于常见的指标。
指标一般可分为计数指标和复合指标。计数指标如访客、访问、页面浏览量、停留时长等;复合指标如跳出率、交互深度、转化率等。
指标一般伴随维度来分析才有更大的意义。
展示和点击
展示,指页面上元素的曝光次数。
点击,指页面元素被用户点击的次数。
这两个指标主要适用于线上广告投放,比如评估投放在新浪首页的品牌广告,展示了多少次,点击了多少次。
访客
英文为 Visitor,通俗解释为访问网站或 App 的人。前面加上 Unique 后,即我们平常说的 UV,唯一身份访客。
对于数据统计工具而言,一般用匿名 ID 来标记访问者,网页端产品是 Cookie(网站服务器投放在用户浏览器上的一小段文本),App 端产品是设备 ID。
访问
即 Visit,网页端产品常用概念,指用户一系列连续的页面浏览行为,跟会话 Session 同义。随着移动互联网的崛起,考虑到 App 的使用,Session 慢慢代替 Visit 成为主要用词。
业界对于 Session 内行为间的间隔设定了有效期限,网页端产品为 30 分钟,App 端产品时间较短,一般为 1 分钟。
页面浏览量
PageView,即 PV,指页面被用户浏览的次数,严格定义上指的是用户向网站发出并完成的一个下载页面的请求。
页面浏览的概念主要适用于网页端产品,对于 App 的分析,现主要使用屏幕浏览,即 ScreenView。
停留时长
对应于用户 Session,便有了停留时长指标,主要用来衡量用户与网站、App 交互的深度。
交互越深,相应停留的时长也越长。
一般有页面停留时长,会话时长以及平均停留时长等概念,其计算的核心原理在于记录下用户行为发生时的时间戳,后期再应用相应公式来计算。
跳出率
BounceRate,一个衡量落地页质量好坏的重要指标。跳出的概念是指用户在一次访问中仅做了一次互动便选择了离开,单一页面和全站均有跳出率的概念。
页面跳出率为该页面跳出的访问次数占该页面总访问次数的百分比。全站跳出率则为跳出的访问次数除以总的访问次数。
交互深度
交互深度是指用户在一次浏览网站或 App 过程中,访问了多少页面。
用户在一次浏览中访问的页面越多,交互深度就越深。
交互深度能够侧面反映网站或 App 对于用户的吸引力。
可以通过 Session 来计算用户的平均交互深度。
转化率
任何产品都需要关注的核心指标,主要用来衡量用户从流量到发生实际目标转化的能力。
一般用目标转化的次数或人数除以进入目标转化漏斗的人数或次数,因目标行为的不同,转化率是一个非常灵活的指标,比如你可以自定义注册转化率、登录转化率、购买转化率、搜索成功转化率等。
基本名词
指标
1. 总次数
事件分析功能常用指标,指在选定的时间范围内,某一事件被触发的次数。
比如选择页面浏览事件,按总次数查看时,计算出来的值即为页面浏览量。
2. 触发用户数
事件分析功能常用指标,指在选定的时间范围内,触发某一事件的独立用户数。
比如选择注册成功事件,按独立用户数查看时,计算出来的值即为选择时间范围内的注册成功人数。
3. 人均次数
事件分析功能常用指标,指在选定的时间范围内,独立用户触发某一事件的平均次数。
比如选择页面浏览事件,按人均次数查看时,计算出来的值即为人均页面浏览次数。
属性
为了帮助使用者更方便地使用我们的产品,我们目前分别为事件和用户提供了一些预置属性。
点击查看预置属性的详细介绍。
基础指标配置
Web 端日活跃用户数(UV)
定义:1 天(00:00-24:00)之内,访问网站的不重复用户数,一天内同一访客多次访问网站只被计算 1 次。
-
选择“事件分析”功能。
-
选择事件:Web 浏览页面。
-
选择指标:用户数。
same as:
select count(*) from (
select distinct session_id from data where event = 'web_view' and timestamp between #{startDate} and #{endDate}
);
App 端日活跃用户数(UV)
定义:1 天(00:00-24:00)之内,访问 App 的不重复用户数,一天内同一访客多次访问 App 只被计算 1 次。
-
选择“事件分析”功能。
-
选择事件:启动 App 。
-
选择指标:用户数。
select count(*) from (
select distinct session_id from data where event = 'app_view' and timestamp between #{startDate} and #{endDate}
);
页面浏览量(PV)
定义:网页浏览是指浏览器加载(或重新加载)网页的实例。
页面浏览量可以定义为网页浏览总次数的指标。
-
选择“事件分析”功能。
-
选择事件:浏览页面。
-
选择指标:总次数。
select count(*) from data where event = 'web_view' and timestamp between #{startDate} and #{endDate};
新增注册用户数
定义:当天注册用户数
-
选择“事件分析”功能。
-
选择事件:注册。
-
选择指标:用户数。
select count(*) from event_user where event = 'register';
这种注册其实更适合通过后端的统计,所以前后端的数据可以导入,甚至关联。
ps: 可以在 event 表之外,单独加一张登录的用户表。记录用户的信息,这个表和注册的用户可以关联。
Web 端新用户数
定义:当日的独立访客中,历史上首日访问网站的访客定义为新用户。
-
选择“事件分析”功能。
-
选择事件:Web 浏览页面。
-
选择指标:用户数。
-
添加筛选条件:是否首日访问为真。
ps: 在服务端落库的时候,需要区分是 pc/app?同时增加一个是否首日访问的 flag。
Web 端新用户比例
定义:当日的访客中,新用户在所有访客中占的比例。
- 首先创建虚拟事件:【Web】新用户访问
ps: 这里涉及到 FILTER
可以设计一套动态的 sql 拼接脚本。
Web 端新用户留存率
定义:在互联网行业中,用户在某段时间内开始使用应用,经过一段时间后,仍然继续使用该应用的用户,被认作是留存用户。这部分用户占当时新增用户的比例即是留存率,会按照每隔1单位时间(例日、周、月)来进行统计。顾名思义,留存指的就是“有多少用户留下来了”。
-
选择留存分析功能。
-
初始行为:选择 Web 浏览页面。
-
添加筛选条件:是否首日访问为真。
-
后续行为:选择任意事件。
-
选择日留存、周留存、月留存。
什么是筛选条件
筛选条件是为了在我们取到的数据集中,通过设置一个条件进行过滤,获取我们最终想得到的子数据集进行分析。
神策所有的分析功能中都有筛选条件的选项,均可以实现根据事件的属性进行筛选或根据用户的属性进行筛选。
-
筛选条件可类比于 SQL 中的 where 条件语句。
-
当使用用户筛选条件时, where 条件作用于 users 表;当使用事件筛选条件时, where 条件作用于 events 表。
在神策所有的分析功能中,我们可以看到「筛选」、「全局筛选」等按钮时,代表此处可以对用户或事件进行筛选,参考上图中的标识,具体配置流程如下:
-
点击弹出筛选条件输入框,可以同时添加一个或多个筛选条件。
-
在 B 中选择筛选事件或用户的属性。
-
在 C 中选择属性的 判断类型 ,不同的属性类型拥有不同的 判断类型,不同 判断类型 的使用方法可参考第 3 部分。
-
在 D 选项中输入 判断值 后,分析结果即会根据输入条件进行筛选。
筛选条件分类
按目标
筛选用户:筛选条件作用于用户表,只看符合筛选条件的那些用户;一般在用户属性上进行条件设置,或者选择用户分群获取符合分析条件的用户。
筛选事件:筛选条件作用于事件,只看符合筛选条件的事件;一般在事件属性上进行条件设置。
按数据类型
不管是为了筛选出不同用户或筛选不同事件,具体的每一个筛选条件的设置,都可以按其数据类型来了解。
字符串类型
当筛选的属性为字符串类型时,可以看到如上图中标识的判断类型,具体每个判断类型的使用可参考下表:
判断类型 类比 SQL | 描述说明 | |
---|---|---|
等于 | = | 精确判断,只有选择的事件属性等于输入的判断值时,该事件才会进入分析过程;当判断值存在多个时,事件属性值等于任意一个,该事件都会进入分析的数据集 |
不等于 | != | 精确判断,只有选择的事件属性不等于输入的判断值时,该事件才会进入分析过程;当判断值存在多个时,事件属性值等于任意一个,该事件就不会进入分析过程 |
包含 | LIKE “%$判断值%” | 匹配判断,当属性字段中包含判断值,该事件或用户就会进入分析过程 |
不包含 | NOT LIKE “%$判断值%” | 匹配判断,与“包含”相反,当属性字段中包含判断值,该事件不会进入分析过程 |
不为空 | Length($属性)>0 | 当属性字段中有值(字符串长度大于 0 )时,事件或用户才会进入分析过程 |
为空 | =”” | 当属性字段中值为空字符串时,事件或用户才会进入分析过程 |
没值 | IS NULL | 只有属性字段中值为 NULL 时,事件或用户才会进入分析过程 |
有值 | IS NOT NULL | 只有属性字段中值不为 NULL 时,事件或用户才会进入分析过程 |
正则匹配 | - | 匹配判断,符合条件的数据进入分析过程,具体请参考:正则表达式 |
正则不匹配 | - | 匹配判断,只有不符合正则条件的数据进入分析过程,具体请参考:正则表达式 |
数值类型属性筛选
当筛选的属性为数字类型时,可以看到如上图中标识的判断类型,具体每个判断类型的使用可参考下表:
判断类型 类比表达式 描述说明
等于 = 类同于字符串类型
不等于 != 类同于字符串类型
小于 < 所选属性值小于判断值的事件才会进入分析过程
大于 > 所选属性值大于判断值的事件才会进入分析过程
区间 between . and . 所选属性值处于设置的判断值所形成的闭区间时,事件才会进入分析流程;如判断值设置为 10 和 100 时,所选属性值需要满足 [10,100] 区间
有值 IS NOT NULL 类同于字符串类型
没值 IS NULL 类同于字符串类型
时间类型属性筛选
名词解释
-
绝对时间:有明确开始和截止时间的一个固定时间范围
-
时段区间:有明确的开始和截止时段的一个固定的时段区间
-
相对时间:相对于某个时间点,确定一个开始时间和截止时间的时间范围
-
相对当前时间点:相对于当前之前的一段时间范围,比如之前 1 小时
-
相对当前时间区间:相对当前的时间点,确定一个开始时间和截止时间
当筛选的属性为时间类型时,可以看到如上图所示的判断类型,具体每个判断类型使用可参考如下:
- 绝对时间
如设置绝对时间在 2017-07-04 00:00 至 2017-07-11 00:00,则所选属性时间范围在此区间(包含区间端点)的数据会进入分析过程
- 时段区间
如设置绝对时间在 00:00 至 10:59,则所选属性时间范围在此区间的数据会进入分析过程
- 相对当前时间点
如相对当前时间点在 1 天之内,则表示当前时间点减一天为起点,当前时间点为终点的时间区间。即 [当前时间点 - 1 天, 当前时间点]。注:计算时数据精确到天。
例如:3月22日 12:05:22 发起查询,「相对当前时间点 1 天之内」;结果为:时间范围在 [3月22日 00:00:00 , 3月22日 23:59:59] 的数据
如相对当前时间点 1 天之前,则表示当前时间点减一天为终点之前的时间区间。即 ( 无穷小时间, 当前时间点 - 1 天]
例如:3月22日 12:05:22 发起查询,「相对当前时间点 1 天之前」;结果为:时间范围在 [- ∞ , 3月21日 23:59:59] 的数据
- 相对当前时间区间
如设置相对当前时间的过去 5 天到过去 3 天之内,则表示以当前时间点 - 5 天为起点,以当天时间点 - 3 天为终点的时间区间,即 [当前时间点 - 5 天, 当天时间点 - 3 天]
- 相对事件发生时间
此处以事件发生的时间锚点去设置时间区间的起点和终点,所以对于每一条需要判断的事件或用户数据,所对应判断的时间区间是不一样的。
比如我们想要看到购买事件发生前 5 分钟进行注册事件的用户数量时,可设置 注册时间 相对事件发生时间 在之前 5 分钟内。基于“用户注册后,立马购买的商品是吸引用户注册的原因”这样一个假设,我们可以查看那类型商品比较容易吸引用户注册来购买。或者替换成优惠券,可查看那类型优惠券更容易吸引用户。
此处的「之前 N 天内」或「之后 N 天内」均包含事件发生当天。
- 有值 & 没值
请参考字符串类型中,有值 & 没值的描述
布尔类型属性筛选
当筛选的属性为布尔类型时,可以看到如上图所示的判断类型,具体每个判断类型使用如下:
- 为真
表示当选择属性值为 TURE 时,数据才会进入分析过程。
- 为假
表示当选择属性值为 FALSE 时,数据才会进入分析过程。
- 有值&没值
请参考字符串中,有值 & 没值的描述
带字典类型属性的筛选
在神策分析的元数据管理中,可以对属性设置 维度字典,对于已经设置 维度字典 的字段,筛选条件如下图,具体的判断字段使用可参考字符串类型中相应类型。
用户分群的筛选
在进行条件筛选时,如果选择用户分群,则判断条件选择跟布尔类型相同,表示用户是否在该分群之内。
参考资料
https://manual.sensorsdata.cn/sa/latest/%E5%A6%82%E4%BD%95%E6%AD%A3%E7%A1%AE%E5%9C%B0%E6%A0%87%E8%AF%86%E7%94%A8%E6%88%B7-7538292.html
https://manual.sensorsdata.cn/sa/latest/%E5%B1%9E%E6%80%A7%E7%AD%9B%E9%80%89%E6%9D%A1%E4%BB%B6%E8%AF%B4%E6%98%8E-41845413.html