度量报警平台自身: 告警量、触达率、误报率、MTTR

老马啸西风2025/9/7大约 11 分钟

度量报警平台自身：告警量、触达率、误报率、MTTR

一个优秀的报警平台不仅要能够有效地监控和告警业务系统，还需要具备自我监控和度量的能力。通过对报警平台自身的各项关键指标进行度量和监控，我们可以及时发现平台问题，持续优化平台性能，确保报警服务的可靠性和有效性。这些核心指标包括告警量、触达率、误报率和MTTR（平均修复时间）。

引言

报警平台作为整个监控体系的核心组件，其自身的健康状况直接影响到业务系统的稳定运行。正如医生需要定期体检一样，报警平台也需要建立完善的自我度量机制。通过监控平台的关键性能指标，我们能够：

评估平台健康度：了解平台的运行状态和性能表现
识别潜在问题：及时发现平台瓶颈和异常
优化平台性能：基于数据驱动的方式持续改进平台
提升服务质量：确保报警服务的可靠性和及时性

核心度量指标

1. 告警量（Alert Volume）

告警量是衡量报警平台负载和活跃度的基础指标，包括告警产生量、处理量和不同类型告警的分布情况。

class AlertVolumeMetrics:
    """告警量度量指标"""
    
    def __init__(self, metrics_collector):
        self.collector = metrics_collector
    
    def collect_alert_volume_metrics(self):
        """收集告警量指标"""
        metrics = {
            # 告警产生量
            'alert_generated_total': self.get_total_generated_alerts(),
            'alert_generated_rate': self.get_alert_generation_rate(),
            
            # 告警类型分布
            'alert_by_severity': self.get_alerts_by_severity(),
            'alert_by_category': self.get_alerts_by_category(),
            'alert_by_service': self.get_alerts_by_service(),
            
            # 时间分布
            'alert_by_hour': self.get_alerts_by_hour(),
            'alert_by_day': self.get_alerts_by_day(),
            
            # 趋势分析
            'alert_volume_trend': self.analyze_volume_trend()
        }
        
        return metrics
    
    def get_total_generated_alerts(self, time_window='24h'):
        """获取指定时间窗口内的告警总数"""
        query = f"""
        SELECT COUNT(*) as total_alerts
        FROM alerts
        WHERE created_at >= NOW() - INTERVAL '{time_window}'
        """
        result = self.collector.execute_query(query)
        return result[0]['total_alerts'] if result else 0
    
    def get_alert_generation_rate(self, time_window='1h'):
        """获取告警生成速率"""
        query = f"""
        SELECT COUNT(*) / 3600.0 as alerts_per_second
        FROM alerts
        WHERE created_at >= NOW() - INTERVAL '{time_window}'
        """
        result = self.collector.execute_query(query)
        return result[0]['alerts_per_second'] if result else 0
    
    def get_alerts_by_severity(self, time_window='24h'):
        """按严重性统计告警分布"""
        query = f"""
        SELECT severity, COUNT(*) as count
        FROM alerts
        WHERE created_at >= NOW() - INTERVAL '{time_window}'
        GROUP BY severity
        ORDER BY count DESC
        """
        results = self.collector.execute_query(query)
        return {row['severity']: row['count'] for row in results}
    
    def analyze_volume_trend(self, days=7):
        """分析告警量趋势"""
        query = f"""
        SELECT 
            DATE(created_at) as date,
            COUNT(*) as alert_count,
            AVG(COUNT(*)) OVER (ORDER BY DATE(created_at) ROWS BETWEEN 6 PRECEDING AND CURRENT ROW) as moving_avg
        FROM alerts
        WHERE created_at >= NOW() - INTERVAL '{days} days'
        GROUP BY DATE(created_at)
        ORDER BY date
        """
        results = self.collector.execute_query(query)
        return results

告警量监控的关键价值：

容量规划：帮助规划平台资源和处理能力
异常检测：识别告警量的异常波动
性能优化：指导平台性能优化方向
成本控制：合理控制通知和处理成本

2. 触达率（Delivery Rate）

触达率衡量告警通知成功送达相关人员的比例，是评估报警平台有效性的重要指标。

class DeliveryRateMetrics:
    """触达率度量指标"""
    
    def __init__(self, notification_service):
        self.notification_service = notification_service
    
    def calculate_delivery_rate(self, time_window='24h'):
        """计算触达率"""
        # 获取通知总数
        total_notifications = self.get_total_notifications(time_window)
        
        # 获取成功送达的通知数
        successful_deliveries = self.get_successful_deliveries(time_window)
        
        # 计算触达率
        delivery_rate = (successful_deliveries / total_notifications * 100) if total_notifications > 0 else 0
        
        return {
            'total_notifications': total_notifications,
            'successful_deliveries': successful_deliveries,
            'delivery_rate': delivery_rate,
            'failed_deliveries': total_notifications - successful_deliveries
        }
    
    def get_delivery_rate_by_channel(self, time_window='24h'):
        """按渠道统计触达率"""
        query = f"""
        SELECT 
            channel,
            COUNT(*) as total,
            SUM(CASE WHEN status = 'delivered' THEN 1 ELSE 0 END) as delivered,
            SUM(CASE WHEN status = 'delivered' THEN 1 ELSE 0 END) * 100.0 / COUNT(*) as delivery_rate
        FROM notifications
        WHERE created_at >= NOW() - INTERVAL '{time_window}'
        GROUP BY channel
        ORDER BY delivery_rate ASC
        """
        results = self.notification_service.execute_query(query)
        return results
    
    def get_delivery_latency(self, time_window='24h'):
        """获取送达延迟"""
        query = f"""
        SELECT 
            channel,
            AVG(EXTRACT(EPOCH FROM (delivered_at - created_at))) as avg_latency_seconds,
            PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (delivered_at - created_at))) as p50_latency,
            PERCENTILE_CONT(0.95) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (delivered_at - created_at))) as p95_latency
        FROM notifications
        WHERE created_at >= NOW() - INTERVAL '{time_window}'
          AND status = 'delivered'
          AND delivered_at IS NOT NULL
        GROUP BY channel
        """
        results = self.notification_service.execute_query(query)
        return results
    
    def monitor_delivery_failures(self, time_window='1h'):
        """监控送达失败"""
        query = f"""
        SELECT 
            channel,
            error_type,
            COUNT(*) as failure_count,
            STRING_AGG(DISTINCT error_message, '; ') as error_messages
        FROM notifications
        WHERE created_at >= NOW() - INTERVAL '{time_window}'
          AND status = 'failed'
        GROUP BY channel, error_type
        ORDER BY failure_count DESC
        LIMIT 10
        """
        results = self.notification_service.execute_query(query)
        return results

触达率监控的关键要点：

多渠道监控：分别监控不同通知渠道的触达情况
延迟监控：关注通知送达的及时性
失败分析：深入分析送达失败的原因
SLA管理：建立触达率的服务等级目标

3. 误报率（False Positive Rate）

误报率衡量无效告警占总告警量的比例，是评估报警质量的核心指标。

class FalsePositiveMetrics:
    """误报率度量指标"""
    
    def __init__(self, alert_service):
        self.alert_service = alert_service
    
    def calculate_false_positive_rate(self, time_window='7d'):
        """计算误报率"""
        # 获取总告警数
        total_alerts = self.get_total_alerts(time_window)
        
        # 获取误报数
        false_positives = self.get_false_positives(time_window)
        
        # 计算误报率
        false_positive_rate = (false_positives / total_alerts * 100) if total_alerts > 0 else 0
        
        return {
            'total_alerts': total_alerts,
            'false_positives': false_positives,
            'false_positive_rate': false_positive_rate,
            'accuracy_rate': 100 - false_positive_rate
        }
    
    def get_false_positives(self, time_window='7d'):
        """获取误报数量"""
        # 误报定义：告警触发后在短时间内自动恢复且未造成实际影响
        query = f"""
        SELECT COUNT(*) as false_positives
        FROM alerts a
        JOIN alert_resolutions ar ON a.id = ar.alert_id
        WHERE a.created_at >= NOW() - INTERVAL '{time_window}'
          AND ar.resolution_type = 'auto_recovered'
          AND EXTRACT(EPOCH FROM (ar.resolved_at - a.created_at)) < 300  -- 5分钟内恢复
          AND a.impact_assessment = 'none'
        """
        result = self.alert_service.execute_query(query)
        return result[0]['false_positives'] if result else 0
    
    def analyze_false_positives_by_category(self, time_window='7d'):
        """按类别分析误报"""
        query = f"""
        SELECT 
            a.category,
            COUNT(*) as total_alerts,
            SUM(CASE 
                WHEN ar.resolution_type = 'auto_recovered' 
                     AND EXTRACT(EPOCH FROM (ar.resolved_at - a.created_at)) < 300 
                     AND a.impact_assessment = 'none' 
                THEN 1 ELSE 0 
            END) as false_positives,
            SUM(CASE 
                WHEN ar.resolution_type = 'auto_recovered' 
                     AND EXTRACT(EPOCH FROM (ar.resolved_at - a.created_at)) < 300 
                     AND a.impact_assessment = 'none' 
                THEN 1 ELSE 0 
            END) * 100.0 / COUNT(*) as false_positive_rate
        FROM alerts a
        LEFT JOIN alert_resolutions ar ON a.id = ar.alert_id
        WHERE a.created_at >= NOW() - INTERVAL '{time_window}'
        GROUP BY a.category
        HAVING COUNT(*) > 10  -- 至少10个告警才进行统计
        ORDER BY false_positive_rate DESC
        """
        results = self.alert_service.execute_query(query)
        return results
    
    def get_false_positive_trends(self, days=30):
        """获取误报趋势"""
        query = f"""
        SELECT 
            DATE(a.created_at) as date,
            COUNT(*) as total_alerts,
            SUM(CASE 
                WHEN ar.resolution_type = 'auto_recovered' 
                     AND EXTRACT(EPOCH FROM (ar.resolved_at - a.created_at)) < 300 
                     AND a.impact_assessment = 'none' 
                THEN 1 ELSE 0 
            END) as false_positives,
            SUM(CASE 
                WHEN ar.resolution_type = 'auto_recovered' 
                     AND EXTRACT(EPOCH FROM (ar.resolved_at - a.created_at)) < 300 
                     AND a.impact_assessment = 'none' 
                THEN 1 ELSE 0 
            END) * 100.0 / COUNT(*) as false_positive_rate
        FROM alerts a
        LEFT JOIN alert_resolutions ar ON a.id = ar.alert_id
        WHERE a.created_at >= NOW() - INTERVAL '{days} days'
        GROUP BY DATE(a.created_at)
        ORDER BY date
        """
        results = self.alert_service.execute_query(query)
        return results

误报率优化策略：

规则优化：持续优化告警规则，减少误报
智能降噪：引入机器学习算法识别误报模式
反馈机制：建立用户反馈机制，及时调整规则
A/B测试：通过A/B测试验证规则效果

4. MTTR（Mean Time To Recovery）

MTTR衡量从告警触发到问题解决的平均时间，是评估问题响应效率的关键指标。

class MTTRMetrics:
    """MTTR度量指标"""
    
    def __init__(self, incident_service):
        self.incident_service = incident_service
    
    def calculate_mttr(self, time_window='30d'):
        """计算MTTR"""
        query = f"""
        SELECT 
            COUNT(*) as total_incidents,
            AVG(EXTRACT(EPOCH FROM (resolved_at - created_at))) as avg_mttr_seconds,
            PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (resolved_at - created_at))) as median_mttr_seconds,
            MIN(EXTRACT(EPOCH FROM (resolved_at - created_at))) as min_mttr_seconds,
            MAX(EXTRACT(EPOCH FROM (resolved_at - created_at))) as max_mttr_seconds
        FROM incidents
        WHERE created_at >= NOW() - INTERVAL '{time_window}'
          AND status = 'resolved'
          AND resolved_at IS NOT NULL
        """
        result = self.incident_service.execute_query(query)
        return result[0] if result else None
    
    def calculate_mttr_by_severity(self, time_window='30d'):
        """按严重性计算MTTR"""
        query = f"""
        SELECT 
            severity,
            COUNT(*) as incident_count,
            AVG(EXTRACT(EPOCH FROM (resolved_at - created_at))) as avg_mttr_seconds,
            PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (resolved_at - created_at))) as median_mttr_seconds
        FROM incidents
        WHERE created_at >= NOW() - INTERVAL '{time_window}'
          AND status = 'resolved'
          AND resolved_at IS NOT NULL
        GROUP BY severity
        ORDER BY 
            CASE severity 
                WHEN 'critical' THEN 1
                WHEN 'high' THEN 2
                WHEN 'medium' THEN 3
                WHEN 'low' THEN 4
                ELSE 5
            END
        """
        results = self.incident_service.execute_query(query)
        return results
    
    def analyze_mttr_trends(self, days=90):
        """分析MTTR趋势"""
        query = f"""
        SELECT 
            DATE(created_at) as date,
            COUNT(*) as incident_count,
            AVG(EXTRACT(EPOCH FROM (resolved_at - created_at))) as avg_mttr_seconds,
            AVG(EXTRACT(EPOCH FROM (first_response_at - created_at))) as avg_ack_time_seconds
        FROM incidents
        WHERE created_at >= NOW() - INTERVAL '{days} days'
          AND status = 'resolved'
          AND resolved_at IS NOT NULL
        GROUP BY DATE(created_at)
        ORDER BY date
        """
        results = self.incident_service.execute_query(query)
        return results
    
    def get_mttr_benchmarking(self):
        """获取MTTR基准数据"""
        benchmarks = {
            'industry_benchmarks': {
                'web_applications': 1800,  # 30分钟
                'database_systems': 3600,   # 1小时
                'network_infrastructure': 7200  # 2小时
            },
            'internal_targets': {
                'critical_incidents': 900,   # 15分钟
                'high_severity': 3600,       # 1小时
                'medium_severity': 10800,    # 3小时
                'low_severity': 86400        # 24小时
            }
        }
        return benchmarks

MTTR优化方法：

自动化响应：通过自动化减少人工响应时间
知识库建设：建立完善的知识库提高解决效率
技能培训：提升团队技能水平
流程优化：优化事件响应和处理流程

平台监控仪表板设计

1. 核心指标仪表板

// 平台监控仪表板React组件
class PlatformMonitoringDashboard extends React.Component {
    constructor(props) {
        super(props);
        this.state = {
            metrics: {},
            loading: true,
            timeRange: '24h'
        };
    }
    
    componentDidMount() {
        this.loadMetrics();
        // 设置定时刷新
        this.refreshInterval = setInterval(this.loadMetrics, 60000);
    }
    
    componentWillUnmount() {
        if (this.refreshInterval) {
            clearInterval(this.refreshInterval);
        }
    }
    
    async loadMetrics() {
        try {
            const metrics = await this.fetchPlatformMetrics(this.state.timeRange);
            this.setState({ metrics, loading: false });
        } catch (error) {
            console.error('加载平台指标失败:', error);
            this.setState({ loading: false });
        }
    }
    
    render() {
        const { metrics, loading } = this.state;
        
        if (loading) {
            return <div className="loading">加载中...</div>;
        }
        
        return (
            <div className="platform-monitoring-dashboard">
                <header className="dashboard-header">
                    <h1>报警平台监控仪表板</h1>
                    <TimeRangeSelector 
                        value={this.state.timeRange}
                        onChange={this.handleTimeRangeChange}
                    />
                </header>
                
                <div className="dashboard-grid">
                    <div className="metrics-row">
                        <KpiCard
                            title="告警量"
                            value={metrics.alert_volume?.total_alerts}
                            trend={metrics.alert_volume?.trend}
                            unit="个"
                            threshold={{ warning: 10000, critical: 50000 }}
                        />
                        <KpiCard
                            title="触达率"
                            value={metrics.delivery_rate?.delivery_rate}
                            trend={metrics.delivery_rate?.trend}
                            unit="%"
                            threshold={{ warning: 95, critical: 90 }}
                        />
                        <KpiCard
                            title="误报率"
                            value={metrics.false_positive_rate?.false_positive_rate}
                            trend={metrics.false_positive_rate?.trend}
                            unit="%"
                            threshold={{ warning: 5, critical: 10 }}
                        />
                        <KpiCard
                            title="MTTR"
                            value={metrics.mttr?.avg_mttr_seconds}
                            trend={metrics.mttr?.trend}
                            unit="秒"
                            formatValue={this.formatDuration}
                            threshold={{ warning: 3600, critical: 7200 }}
                        />
                    </div>
                    
                    <div className="charts-row">
                        <AlertVolumeChart data={metrics.alert_trends} />
                        <DeliveryRateChart data={metrics.delivery_trends} />
                        <FalsePositiveChart data={metrics.false_positive_trends} />
                        <MTTRTrendChart data={metrics.mttr_trends} />
                    </div>
                    
                    <div className="details-row">
                        <AlertCategoryBreakdown data={metrics.alert_by_category} />
                        <ChannelPerformance data={metrics.channel_performance} />
                        <TopFailureReasons data={metrics.top_failures} />
                        <SLACompliance data={metrics.sla_compliance} />
                    </div>
                </div>
            </div>
        );
    }
    
    formatDuration(seconds) {
        if (seconds < 60) return `${Math.round(seconds)}秒`;
        if (seconds < 3600) return `${Math.round(seconds/60)}分钟`;
        return `${Math.round(seconds/3600)}小时`;
    }
}

2. 实时告警监控

class RealTimeAlertMonitor:
    """实时告警监控"""
    
    def __init__(self, websocket_client):
        self.websocket = websocket_client
        self.alert_buffer = []
        self.max_buffer_size = 1000
    
    def start_monitoring(self):
        """开始实时监控"""
        self.websocket.subscribe('platform_alerts', self.handle_alert_event)
        self.websocket.subscribe('platform_metrics', self.handle_metric_event)
    
    def handle_alert_event(self, event):
        """处理告警事件"""
        # 添加到缓冲区
        self.alert_buffer.append(event)
        if len(self.alert_buffer) > self.max_buffer_size:
            self.alert_buffer.pop(0)
        
        # 实时更新指标
        self.update_real_time_metrics(event)
        
        # 检查异常模式
        self.detect_anomaly_patterns()
    
    def update_real_time_metrics(self, alert_event):
        """更新实时指标"""
        # 更新告警量
        self.metrics_collector.increment_counter('realtime_alert_count')
        
        # 更新渠道送达状态
        if 'notification_status' in alert_event:
            status = alert_event['notification_status']
            self.metrics_collector.increment_counter(f'notification_{status}')
        
        # 更新处理时间
        if 'processing_time' in alert_event:
            processing_time = alert_event['processing_time']
            self.metrics_collector.record_histogram('alert_processing_time', processing_time)
    
    def detect_anomaly_patterns(self):
        """检测异常模式"""
        # 检查告警量突增
        if self.is_alert_volume_spike():
            self.trigger_alert('告警量突增', self.get_current_alert_rate())
        
        # 检查触达率下降
        if self.is_delivery_rate_dropping():
            self.trigger_alert('触达率下降', self.get_current_delivery_rate())
        
        # 检查误报率上升
        if self.is_false_positive_increasing():
            self.trigger_alert('误报率上升', self.get_current_false_positive_rate())

告警与通知

1. 平台健康告警

class PlatformHealthAlerting:
    """平台健康告警"""
    
    def __init__(self, alert_manager):
        self.alert_manager = alert_manager
        self.health_rules = self.define_health_rules()
    
    def define_health_rules(self):
        """定义健康检查规则"""
        return {
            'high_alert_volume': {
                'name': '告警量过高',
                'condition': 'alert_rate > 100',  # 每秒超过100个告警
                'severity': 'warning',
                'notification_channels': ['slack_ops', 'email_admin']
            },
            'low_delivery_rate': {
                'name': '触达率过低',
                'condition': 'delivery_rate < 90',  # 触达率低于90%
                'severity': 'critical',
                'notification_channels': ['sms_admin', 'phone_call']
            },
            'high_false_positive_rate': {
                'name': '误报率过高',
                'condition': 'false_positive_rate > 10',  # 误报率超过10%
                'severity': 'warning',
                'notification_channels': ['slack_ops']
            },
            'high_mttr': {
                'name': 'MTTR过高',
                'condition': 'mttr > 3600',  # MTTR超过1小时
                'severity': 'critical',
                'notification_channels': ['sms_admin', 'email_admin']
            }
        }
    
    def check_platform_health(self):
        """检查平台健康状态"""
        metrics = self.collect_platform_metrics()
        
        for rule_name, rule in self.health_rules.items():
            if self.evaluate_condition(rule['condition'], metrics):
                self.trigger_health_alert(rule_name, rule, metrics)
    
    def trigger_health_alert(self, rule_name, rule, metrics):
        """触发健康告警"""
        alert = {
            'alert_name': f"平台健康告警: {rule['name']}",
            'severity': rule['severity'],
            'description': self.generate_alert_description(rule_name, rule, metrics),
            'timestamp': datetime.now(),
            'tags': ['platform_health', rule_name],
            'notification_channels': rule['notification_channels']
        }
        
        self.alert_manager.create_alert(alert)
    
    def generate_alert_description(self, rule_name, rule, metrics):
        """生成告警描述"""
        descriptions = {
            'high_alert_volume': f"当前告警速率: {metrics.get('alert_rate', 0):.2f} alerts/sec",
            'low_delivery_rate': f"当前触达率: {metrics.get('delivery_rate', 0):.2f}%",
            'high_false_positive_rate': f"当前误报率: {metrics.get('false_positive_rate', 0):.2f}%",
            'high_mttr': f"当前MTTR: {metrics.get('mttr', 0):.2f} seconds"
        }
        return descriptions.get(rule_name, '平台健康状态异常')

2. SLA监控与报告

class SLAMonitoring:
    """SLA监控"""
    
    def __init__(self, metrics_service):
        self.metrics_service = metrics_service
        self.sla_targets = self.define_sla_targets()
    
    def define_sla_targets(self):
        """定义SLA目标"""
        return {
            'delivery_rate': {
                'target': 99.5,  # 触达率目标99.5%
                'measurement': 'monthly',
                'notification_threshold': 98.0
            },
            'false_positive_rate': {
                'target': 2.0,   # 误报率目标2%
                'measurement': 'monthly',
                'notification_threshold': 5.0
            },
            'mttr': {
                'target': 1800,  # MTTR目标30分钟
                'measurement': 'monthly',
                'notification_threshold': 3600
            }
        }
    
    def generate_sla_report(self, period='monthly'):
        """生成SLA报告"""
        report = {
            'period': period,
            'generated_at': datetime.now(),
            'metrics': {}
        }
        
        for metric_name, sla_target in self.sla_targets.items():
            actual_value = self.get_metric_value(metric_name, period)
            compliance = self.calculate_compliance(actual_value, sla_target['target'])
            
            report['metrics'][metric_name] = {
                'target': sla_target['target'],
                'actual': actual_value,
                'compliance': compliance,
                'status': self.determine_status(compliance, sla_target['notification_threshold'])
            }
        
        return report
    
    def calculate_compliance(self, actual, target):
        """计算合规率"""
        if isinstance(target, (int, float)) and target > 0:
            return (actual / target) * 100
        return 100.0
    
    def determine_status(self, compliance, threshold):
        """确定状态"""
        if compliance >= 100:
            return 'exceeded'
        elif compliance >= threshold:
            return 'met'
        else:
            return 'breached'

最佳实践与建议

1. 指标收集最佳实践

全面性：覆盖平台的所有关键方面
实时性：确保指标的及时性和准确性
可操作性：指标应能指导具体的优化行动
可视化：提供直观的图表和仪表板

2. 告警策略建议

分层告警：根据严重性设置不同的告警级别
抑制机制：避免告警风暴和重复告警
自愈能力：对于常见问题实现自动恢复
人工确认：重要告警需要人工确认和处理

3. 持续改进方法

定期评审：定期评审指标和告警规则的有效性
根因分析：对平台问题进行深入的根因分析
优化迭代：基于分析结果持续优化平台
知识沉淀：将经验和教训沉淀为知识库

结论

度量报警平台自身是确保平台可靠性和有效性的关键环节。通过建立完善的告警量、触达率、误报率和MTTR等核心指标监控体系，我们能够：

全面了解平台状态：实时掌握平台的运行状况和性能表现
及时发现潜在问题：通过异常检测机制提前发现平台问题
持续优化平台性能：基于数据驱动的方式不断改进平台
提升服务质量：确保报警服务的可靠性和及时性

在实施过程中，需要建立完善的监控体系、告警机制和持续改进流程，确保平台能够稳定、高效地为业务服务。同时，要注重指标的可操作性和实用性，避免为了监控而监控，真正发挥度量数据的价值。