监控系统实战-09-什么是风险?什么又是报警呢?
核心理念
AI 不谈。谈一下专家规则。
风控
比如功能+黑名单+限额限次 这些是比较固定的。
规则比如交易频次同比之类的差异过大等等
报警
报警也是类似的。
比如有 Exception 的 ERROR 日志,请求等波动比例。都可以认为是异常,
服务不可用,交易量跌 0 等等。
整体流程
数据的源头===》指标
风险识别==》规则
对应的策略:通过/拒绝/报警/验证/处...
2018-11-25 01:14:43 |
Devops
监控系统实战-08-指标与规则
indicator?
cat
event
sql
event
trace
cmdb
measurement(度量)
rule?
how to use indicator?
what is risk/alarm
其实按照这个角度,风控和报警的设计理念是一样的。
包括度量平台也是。
拆分开的优缺点
优点
规则和指标不需要强耦合。
指标可以从很多地方来,比如客诉+舆...
2018-11-25 01:14:43 |
Devops
监控系统实战-07-长文本的截断+任务过多的丢弃+资源消耗过多的禁用
舍得
在提供平台的服务时,我们要学会舍得。
这种智慧提现在很多地方。
比如:
1)日志 ES 落库太长,截断落库。
2)日志脱敏等处理,日志太长,截断+舍弃
3)任务如果执行耗时特别长、特别吃性能,考虑将数据直接禁用掉,避免影响其他服务。
隔离+限制
当然类似的还有限流
资源隔离
限制 cpu/mem 等等
预警
还有需要有对应的预警配套措施。
小结
舍得 舍得 ...
2018-11-25 01:14:43 |
Devops
监控系统实战-05-分布式调度等如何实现 HA? 跨机房
背景
分布式调度,要如何保证多机房可用?
HA
高可用篇之异地多活异地双活入门介绍
拓展阅读
schedule-00-任务调度整体概览
分布式锁-02-SQL 数据库实现分布式锁
分布式锁-01-基于 Zookeeper 实现分布式锁
分布式锁-03-基于 mysql 实现分布式锁
项目
基于数据库最简单的分布式任务调度。(The simplest distributed...
2018-11-25 01:14:43 |
Devops
监控系统实战-05-任务的分布式调度
背景
在单机时代,我们如果想实现一个调度系统,那么并不难。
但是在分布式服务的今天,如何实现一个分布式调度的服务呢?
拓展阅读
schedule-00-任务调度整体概览
分布式锁-02-SQL 数据库实现分布式锁
分布式锁-01-基于 Zookeeper 实现分布式锁
分布式锁-03-基于 mysql 实现分布式锁
项目
基于数据库最简单的分布式任务调度。(The simp...
2018-11-25 01:14:43 |
Devops
监控系统实战-04-SQL 指标的数据源
背景
我们可以考虑设计一套 SQL 指标。
不过SQL指标个人感觉设计的比较好的就是类似于 grafana 这种,可以内置支持常见的数据源最好。
拓展阅读
grafana stack grafana-01-The open and composable observability and data visualization platform.
整体思路
核心能力
基础指标信息...
2018-11-25 01:14:43 |
Devops
监控系统实战-03-实时链路配置加载与2层缓存
背景
我们一般的控台系统,实时查询接口/数据库,返回对应的配置信息等,一般时间上都是可以接受的。
但是如果是一个实时链路,那么就必须尽可能的降低这种耗时的远程访问。比如查询数据库
比较自然的思考方式就是引入 redis 之类的缓存。
不过真的只有这一种方式吗?redis 有什么缺点?
redis/memcache 远程缓存的缺点
网络耗时真的快吗?
redis 快,那也只是相对...
2018-11-25 01:14:43 |
Devops
监控系统实战-02-标准化是自动化的前提
背景
我们如何实现日志的自动化解析?
答案是前提需要标准化。
但是希望所有的日志都是标准的,这显然非常不现实。
那么,有没有什么办法,稍微让这个情况好一些呢?
v1-标准化的底层框架日志
我们场景的中间件,比如 mq cache rpc database config 等,可以提供一些中间件层面的标准的日志输出。
因为这部分不需要用户太多额外的工作量,一般公司提前埋点好,耗时比...
2018-11-25 01:14:43 |
Devops