嘉为蓝鲸一体化运维解决方案

嘉为蓝鲸一体化运维解决方案是基于腾讯蓝鲸PaaS架构及实践,实现一套管控体系、一套融合集成PaaS平台、一套低代码与运维开发方法;

然后平台之上七个融合联动的模块,包括消费驱动的CMDB、数据驱动的监控告警、敏捷运维流程、编排自动化,门户与可视化、运维数据治理和AIOps,实现企业IT运维一体化、自动化、数据化和智能化的逐步体系化演进。

嘉为蓝鲸一体化运维解决方案

嘉为蓝鲸新一代ITOM体系解决方案,基于IT运维价值和平台化架构治理视角出发,引流企业IT运维“两个并存、两个发展”:

运维形态需要稳定与敏捷并存,运维价值的业务连续性与运营辅助并存,运维系统从烟囱转向平台,组织则从被动转向技术运营,最终实现企业IT运维体系从烟囱到平台、功能孤岛到融合协同,以及持续改进和主动运营。

运维一体化平台

鲸石·配置管理中心(CMDB)

企业运维对象的数字孪生,数字化运维平台的基石!

以应用为中心,以配置消费为目的,以深度自动发现、无缝流程联动、灵活数据消费、闭环数据治理的功能特色为支撑,构建新一代 CMDB,为 IT 运维体系提供可信有效的数据支撑!

架构讲解:

● 深度自动发现:支持对企业IT环境中的中间件、数据库、网络设备、硬件服务器等对象进行发现及配置信息的采集;支持灵活集成第三方可信数据源,完成数据调和后录入CMDB。

● 无缝流程联动:与嘉为蓝鲸ITSM天然融合,可直接在流程服务中查询使用CMDB数据并在流程结束后自动回写CMDB,同时提供ITSM与CMDB融合落地最佳实践,助力增量配置数据质量的保障。

● 灵活数据消费:与嘉为蓝鲸各消费场景SaaS天然融合,如:应用发布中心、监控中心、告警中心等;同时提供120+开箱即用的数据接口,供其他系统消费CMDB数据。

● 闭环数据治理:提供”配置管理规范+多样化检查指标+数据质量看板+数据修正待办“的闭环数据治理方案,一站式解决配置数据质量感知难、稽核难、修正难的问题。

无缝

鲸脉·IT服务管理中心(ITSM)

开放敏捷的流程管理方式,助您打通 IT 运维的任督二脉!

基于 ITIL 实践,提供事件管理、问题管理、变更管理、请求管理能力,并通过与 ITOM 的集成融合,大幅提升管理效率和用户体验,实现 IT 服务管理体系的升级!

ITSM

架构讲解:

● 基于ITIL实践,与ITOM工具体系融合的数字化服务管理工具和方法。

● 提供ITIL经典5大流程,事件、问题、变更、发布、请求管理的流程实践能力。

● 提供服务目录、服务级别、流程管理、报表管理、值班管理的ITSM平台能力。

● 提供与监控/告警、CMDB、运维自动化的ITOM工具集成融合能力。

鲸翼•多云管理平台(CMP)

连接云与业务的数字化管道!

统一纳管、统一服务、统一运营、统一运维、统一门户的跨云管理平台,简化多云环境下的IT管理工作,实现云资源全生命周期的精细化运营,降本增效,助力业务竞争!

架构讲解:

struct

云:对云平台及云资源的全面纳管,将云资源组件化,支持快速对接及管理场景扩展。

管:作为连接云与业务端的管道,提供统一纳管、统一服务、统一运营、多样化编排能力,实现管理标准化、资源服务化、交付自动化、运维场景化、运营持续优化,帮助管好云、控好云。

端:面向云计算的使用者和管理员提供人性化、可灵活自定义的门户,满足不同角色的管理需求。

鲸图•数字化运营中心(DOC)

IT 运营管理数字化“驾驶舱”!

依托平台开放生态和一体化能力,全面整合接入各类运维运营数据,快速灵活生成大屏看板,让 IT 状态可视化,让辅助决策成为可能!

功能

图形化设计,拖拽即可制作大屏 提供图形化的设计界面, 无需编码和建模,组件任意拖拽组合即可制作大屏,即时生效预览。

海量组件、多场景模板 提供丰富的组件库,包括多种图表、近300种IT资源图标、常用控件及辅助装饰元素,满足多种业务的展示需求。同时内置多种场景模板,无需专业的设计师,简单修改即可使用。

支持多种类型数据源接入 强大的数据对接能力,支持线上、本地多种类型数据源接入,提供跨数据库、数据源的数据关联功能,支持自定义字段和数据过滤,能快速完成数据建模准备。

鲸眼·监控中心(KMC)

及时、准确、智能,全面掌握应用和资源健康状态!

统一采集、统一管理、统一视图、统一分析,实现及时、准确、智能的集中监控,助您随时随地掌握应用和资源的健康状态,保障业务稳定安全运行!

架构讲解:

● 接入层:支持Agent采集、协议采集以及第三方监控源的数据接入。

● 能力层:覆盖监控通用能力,具备数据采集模块、数据存储模块、数据加工模块、数据检测模块。

● 功能层:功能全面,提供丰富的监控管理、数据展示能力。

监控中心

鲸眼·告警中心(KAC)

告警事件的全生命周期统一闭环管理!

集中纳管各类监控系统的告警信息,实现对告警事件的丰富、抑制、屏蔽、处理、分派、分析等全生命周期管理,帮助您的运维团队专注有效告警,释放人力的同时大幅提升故障处理效率,提升业务稳定性!

告警中心

架构讲解:

● 第三方告警事件接入:通过告警源插件,便捷灵活的对接各种监控系统,将所有告警集中化接入到告警中心。

● 告警中心数据库:功能配置存储在MySQL数据库、高频读写内容存储在redis数据库、全量告警事件存储在ElasticSearch数据库。

● 第三方平台对接处理:通过对接各类工单系统,实现告警转工单;对接蓝鲸标准运维,实现告警自愈处理;对接蓝鲸API网关,实现告警通知。

鲸眼·日志中心(KLC)

海量日志秒级检索,平滑跨越排障最后一公里!

基于业界主流全文检索引擎,以日志数据为中心,通过多源采集、清洗、存储、检索,以及日志的监控告警和可视化分析,深挖日志数据价值,实现日志高效检索与排障,同时解决了分布式架构下日志统一管理和查询的难题,显著提升运维质量。

日志统一采集

通过日志中心,企业可以便捷高效地接入不同设备源的各种实时日志数据。

支持通过Agent采集操作系统、业务系统、中间件、数据库、网络设备、安全设备的日志数据。支持接入 ElasticSearch 中的日志数据。

日志实时查询与分析

基于业界主流的全文搜索引擎,提供方便实用的日志检索功能,支持查看日志上下文和实时日志,帮助 IT 人员在故障排查和 bug 分析时快速查看对应的日志。

日志数据可视化

通过表格、柱形图、折线图、热力图等多种统计图表,可视化展示日志数据,协助 IT 人员实时查看日志中关键数据的统计信息,并根据统计信息做出相应的应对措施。

日志监控告警

通过日志数据中的指标字段或关键字,实时监控系统、服务、应用的状态和性能,异常日志秒级告警,协助 IT 人员进行故障定位和及时发现性能瓶颈。

鲸眼·应用性能观测中心(KAPM)

全链路追踪排障,构建企业应用观测全景中枢!

基于业界主流云原生观测标准 OpenTelemetry 兼容多种主流开源探针,支持无侵入链路采集、全局依赖拓扑、链路追踪能力,实现链路追踪清晰排障,帮助企业 IT 研发、运维解决复杂软件架构业务依赖分析、高效排障定位等问题,显著提升研发、运维质量。

观测中心

架构讲解:

观测组件:以应用为中心支持基础资源(虚机、容器、主机)、PaaS平台组件(数据库、缓存、消息、容器编排)、SaaS服务(多语言、多框架)观测数据的无侵入接入。

平台能力:兼容 Opentelemtry 观测标准支持主流开源探针上报,提供灵活探针管理及采样策略,基于高可用存算分离架构满足线性扩展、高效检索要求。

性能观测:打造业务故障感知、精确故障定位、高效性能分析、运维处置联动、AI智能融合的立体化应用性能观测链条,有效提升故障处置效率,辅助业务连续稳定。

鲸眼·真实用户监测中心(KRUM)

从用户体验入手,建立用户体验分析体系,全链路观测的前哨兵!

面向企业级的IT研发、运维部门。支持多种类型及型号的终端设备、市面上超过99%的主流浏览器类型,并兼容多种数据接入形式。

通过低侵入的探针,一站式解决前端异常排障、性能分析等前端问题。

完整链路分析,精准定位故障根因

支持基于统计分析维度进行异常定位,确认影响范围、优先级有序排障;

支持以明细数据进行检索分析,完成单次会话完整链路信息的构建,层层下钻,完成代码行级的精准异常定位;

使用业界统一 trace_id 联通后端 APM 产品联合分析【可拓展外部系统】,实现前后端异常精准定位;

基于会话 ID、视图 ID 精准查询异常日志明细【预脱敏处理】

多角度构建立体化性能评估体系

以 W3C 标准为基础,建立完整前端性能评估体系,准确助力度量用户体验;多种分析场景,支持业务维度、系统自身维度等多种优化场景;

支持基于 trace_id 联通后端 APM 联合分析【可拓展外部系统】,实现前后端性能瓶颈精准定位;基于会话 ID、视图 ID 精准查询性能相关日志明细【预脱敏处理】

真实用户访问数据,统计助力运营决策

基于用户操作真实数据,提供真实有效、及时响应的运营数据;通过对有效的数据分析【点击、访问、路径】等,提供用于分析用户需求的通用指标数据;

遵循个人信息保护法,提供完整的脱敏处理方案,保证用户个人隐私。

基于用户终端分布,锁定分布范围

基于用户访问地理位置,确认用户分布情况,初步判断确认分布式节点运行情况;基于用户访问的浏览器信息,确认网页与浏览器的适配性,保证用户体验;

基于用户访问的终端类型、终端型号,确认系统与用户终端的适配性问题

鲸舟·应用发布中心(ADA)

合规、敏捷的统一应用发布中心!

与蓝鲸 CMDB 配置平台天然集成,兼容敏态和稳态多种 IT 架构,支持多策略的应用发布和管理,可视化编排引擎实现灵活发布机制,统管 Ansible、Jenkins、ArgoCD 等人工发布工具,助您实现高效快速、规范稳定的中心部署。

ADA

架构讲解:

应用发布中心由应用管理、介质管理、发布管理三部分组成:

● 应用管理:核心是以CMDB应用拓扑为基础,以业务系统和应用模块为核心,将应用环境、应用资源、应用参数统一管理起来。

● 介质管理:是将程序包、配置文件、SQL包、HelmChart、Yaml模板集统一管理起来,并与具体应用进行关联。

● 发布管理:包含发布流水线编排引擎、发布任务执行引擎、发布历史统计。主机应用的执行引擎是蓝鲸标准运维,容器应用的执行引擎是蓝鲸容器管理平台,SQL语句执行引擎是SQL作业执行。

应用发布驱动有三种方式,一种是人工手动发起,一种是通过ITSM审批工单驱动,一种是通过CI系统的流水线驱动。

鲸舟·自动化巡检中心(GIM)

手动巡检自动化,提效增质,IT 现状全掌握!

摒弃传统重复手动巡检方式,通过自定义巡检脚本和脚本对象,进行即时性、周期性等巡检工作的自动化执行,并生成标准可视化报告,提效增质,助您轻松全面掌握 IT 对象运行状态及潜在风险。

巡检管理

① 统一管理各类巡检脚本,可以灵活进行复用编排。

② 提供灵活的巡检模板编排功能,巡检脚本任意组合。

③ 无缝对接CMDB等IT资源,支持额外扩展字段满足巡检所需。

任务管理

① 提供支持立即、定时、周期多种巡检执行方式。

② 支持通过代理机对目标对象进行远程巡检。

③ 支持短信、邮件等多种通知方式发送巡检报告。

巡检报告

① 提供excel、pdf、html多种类型的巡检报告可供导出。

② 多维度视角查看巡检结果,快速获取想要的报告内容。

③ 提供自定义巡检对象的趋势报告,直观了解近期的巡检结果趋势情况,提前预知潜在风险。

巡检权限管控

① 提供实例级单独授权权限管控能力。

② 提供内置权限角色,不用复杂的权限配置开箱即用。

③ 脚本模板配置和任务执行操作可分开授权,降低操作风险。

鲸舟·灾备切换管理中心(DRSM)

一键自动化灾备切换,深度保障业务连续性!

基于跨系统调度自动化能力,可视化跟踪控制,实现业务系统在生产机房和灾备机房之间的一键切换和回切,让定期的灾备切换演练活动高效成功进行,保障业务连续性。

预案编排

① 支持自定义预案编排,如单业务模块、多业务交叉编排。 ② 编排好的预案可一键执行,减少人工操作,实现自动化目标。 ③ 支持通过表格视图进行预案执行顺序的编排,如自动化执行作业、参数管理。

流程编排

① 降低编排工作的难度,简化流程编排人员的工作量。 ② 系统提供友好的图形化编排界面,支持串行、并行、跳过、重试和人工干预等,可应对企业多种切换场景。

灾切大屏

系统提供大屏展示功能,动态展示切换过程,向决策层、指挥层、操作层提供切换过程的展示,实现跨团队协作,提高跨部门沟通效率,确保切换过程有序平稳的进行。

海量支持

系统可同时对海量主机批量执行脚本/命令,降低海量主机切换的复杂度,提升切换效率。即使企业在后期面临因业务增长带来的系统数量和服务器数量激增的问题,也无需考虑性能问题。

小结

任何一个领域,知识至少分为 2 大类:

  1. 自上而下:结合业务,对技术进行整合拓展。全局思维,系统思维。

  2. 自下而上:基本的技术特性,和业务无关。可拓展,可复用。

参考资料

蓝鲸