Metrics 指标监控：API 网关的性能与健康度量

老马啸西风2025/8/31大约 11 分钟

在现代分布式系统中，Metrics 指标监控是确保系统稳定性和性能的关键手段。API 网关作为系统的入口点，需要收集和暴露各种性能指标，以便于监控系统健康状况、识别性能瓶颈和优化系统性能。本文将深入探讨 API 网关 Metrics 指标监控的实现原理、技术细节和最佳实践。

核心指标设计

API 网关需要监控的核心指标反映了系统的整体健康状况和性能表现。

请求相关指标

// 核心指标实现示例
type MetricsCollector struct {
    // 请求计数器
    totalRequests     *prometheus.CounterVec
    requestDuration   *prometheus.HistogramVec
    requestSize       *prometheus.HistogramVec
    responseSize      *prometheus.HistogramVec
    
    // 错误相关指标
    errorRequests     *prometheus.CounterVec
    errorRate         *prometheus.GaugeVec
    
    // 并发相关指标
    concurrentRequests *prometheus.GaugeVec
    requestRate       *prometheus.GaugeVec
    
    // 服务相关指标
    serviceLatency    *prometheus.HistogramVec
    serviceErrors     *prometheus.CounterVec
    
    // 自定义业务指标
    businessMetrics   map[string]prometheus.Gauge
    
    // 内部状态
    mutex             sync.RWMutex
    lastReset         time.Time
}

// 指标标签
type MetricLabels struct {
    Service     string
    Method      string
    Path        string
    StatusCode  string
    ClientIP    string
    UserAgent   string
}

// 创建指标收集器
func NewMetricsCollector() *MetricsCollector {
    mc := &MetricsCollector{
        businessMetrics: make(map[string]prometheus.Gauge),
        lastReset:       time.Now(),
    }
    
    // 初始化 Prometheus 指标
    mc.initPrometheusMetrics()
    
    return mc
}

// 初始化 Prometheus 指标
func (mc *MetricsCollector) initPrometheusMetrics() {
    // 总请求数
    mc.totalRequests = prometheus.NewCounterVec(
        prometheus.CounterOpts{
            Name: "api_gateway_requests_total",
            Help: "Total number of requests received by the API gateway",
        },
        []string{"service", "method", "path", "status_code"},
    )
    
    // 请求持续时间
    mc.requestDuration = prometheus.NewHistogramVec(
        prometheus.HistogramOpts{
            Name:    "api_gateway_request_duration_seconds",
            Help:    "Request duration in seconds",
            Buckets: prometheus.DefBuckets,
        },
        []string{"service", "method", "path", "status_code"},
    )
    
    // 请求大小
    mc.requestSize = prometheus.NewHistogramVec(
        prometheus.HistogramOpts{
            Name:    "api_gateway_request_size_bytes",
            Help:    "Request size in bytes",
            Buckets: []float64{100, 500, 1000, 5000, 10000, 50000, 100000, 1000000},
        },
        []string{"service", "method", "path"},
    )
    
    // 响应大小
    mc.responseSize = prometheus.NewHistogramVec(
        prometheus.HistogramOpts{
            Name:    "api_gateway_response_size_bytes",
            Help:    "Response size in bytes",
            Buckets: []float64{100, 500, 1000, 5000, 10000, 50000, 100000, 1000000},
        },
        []string{"service", "method", "path", "status_code"},
    )
    
    // 错误请求数
    mc.errorRequests = prometheus.NewCounterVec(
        prometheus.CounterOpts{
            Name: "api_gateway_errors_total",
            Help: "Total number of error requests",
        },
        []string{"service", "method", "path", "status_code", "error_type"},
    )
    
    // 错误率
    mc.errorRate = prometheus.NewGaugeVec(
        prometheus.GaugeOpts{
            Name: "api_gateway_error_rate",
            Help: "Current error rate",
        },
        []string{"service", "method", "path"},
    )
    
    // 并发请求数
    mc.concurrentRequests = prometheus.NewGaugeVec(
        prometheus.GaugeOpts{
            Name: "api_gateway_concurrent_requests",
            Help: "Current number of concurrent requests",
        },
        []string{"service"},
    )
    
    // 请求速率
    mc.requestRate = prometheus.NewGaugeVec(
        prometheus.GaugeOpts{
            Name: "api_gateway_request_rate",
            Help: "Current request rate (requests per second)",
        },
        []string{"service"},
    )
    
    // 服务延迟
    mc.serviceLatency = prometheus.NewHistogramVec(
        prometheus.HistogramOpts{
            Name:    "api_gateway_service_latency_seconds",
            Help:    "Service call latency in seconds",
            Buckets: prometheus.DefBuckets,
        },
        []string{"service", "endpoint"},
    )
    
    // 服务错误
    mc.serviceErrors = prometheus.NewCounterVec(
        prometheus.CounterOpts{
            Name: "api_gateway_service_errors_total",
            Help: "Total number of service errors",
        },
        []string{"service", "endpoint", "error_type"},
    )
    
    // 注册指标
    prometheus.MustRegister(
        mc.totalRequests,
        mc.requestDuration,
        mc.requestSize,
        mc.responseSize,
        mc.errorRequests,
        mc.errorRate,
        mc.concurrentRequests,
        mc.requestRate,
        mc.serviceLatency,
        mc.serviceErrors,
    )
}

// 记录请求指标
func (mc *MetricsCollector) RecordRequest(labels MetricLabels, duration time.Duration, reqSize, respSize int64) {
    // 增加总请求数
    mc.totalRequests.WithLabelValues(
        labels.Service,
        labels.Method,
        labels.Path,
        labels.StatusCode,
    ).Inc()
    
    // 记录请求持续时间
    mc.requestDuration.WithLabelValues(
        labels.Service,
        labels.Method,
        labels.Path,
        labels.StatusCode,
    ).Observe(duration.Seconds())
    
    // 记录请求大小
    mc.requestSize.WithLabelValues(
        labels.Service,
        labels.Method,
        labels.Path,
    ).Observe(float64(reqSize))
    
    // 记录响应大小
    mc.responseSize.WithLabelValues(
        labels.Service,
        labels.Method,
        labels.Path,
        labels.StatusCode,
    ).Observe(float64(respSize))
    
    // 如果是错误请求，记录错误指标
    if statusCode, err := strconv.Atoi(labels.StatusCode); err == nil && statusCode >= 400 {
        errorType := "client_error"
        if statusCode >= 500 {
            errorType = "server_error"
        }
        
        mc.errorRequests.WithLabelValues(
            labels.Service,
            labels.Method,
            labels.Path,
            labels.StatusCode,
            errorType,
        ).Inc()
    }
}

// 记录并发请求
func (mc *MetricsCollector) RecordConcurrentRequest(service string, delta int) {
    if delta > 0 {
        mc.concurrentRequests.WithLabelValues(service).Add(float64(delta))
    } else {
        mc.concurrentRequests.WithLabelValues(service).Sub(float64(-delta))
    }
}

// 记录服务延迟
func (mc *MetricsCollector) RecordServiceLatency(service, endpoint string, latency time.Duration) {
    mc.serviceLatency.WithLabelValues(service, endpoint).Observe(latency.Seconds())
}

// 记录服务错误
func (mc *MetricsCollector) RecordServiceError(service, endpoint, errorType string) {
    mc.serviceErrors.WithLabelValues(service, endpoint, errorType).Inc()
}

// 计算错误率
func (mc *MetricsCollector) CalculateErrorRate(service, method, path string) float64 {
    // 获取总请求数
    totalReq := mc.totalRequests.WithLabelValues(service, method, path, "")
    
    // 获取错误请求数
    errorReq := mc.errorRequests.WithLabelValues(service, method, path, "", "")
    
    // 计算错误率
    if totalReq > 0 {
        return errorReq / totalReq
    }
    
    return 0.0
}

// 更新错误率指标
func (mc *MetricsCollector) UpdateErrorRate() {
    // 这里需要实现具体的错误率计算逻辑
    // 由于 Prometheus Counter 和 Gauge 的使用方式，
    // 实际实现中可能需要使用不同的方法来计算和更新错误率
}

实时指标计算

// 实时指标计算器实现示例
type RealTimeMetricsCalculator struct {
    collector      *MetricsCollector
    requestWindow  *SlidingWindow
    ticker         *time.Ticker
    stopChan       chan struct{}
    mutex          sync.RWMutex
}

type SlidingWindow struct {
    size     int
    requests []RequestRecord
    index    int
    count    int
}

type RequestRecord struct {
    Timestamp time.Time
    Service   string
    Success   bool
}

// 创建实时指标计算器
func NewRealTimeMetricsCalculator(collector *MetricsCollector, windowSize int) *RealTimeMetricsCalculator {
    rmc := &RealTimeMetricsCalculator{
        collector:     collector,
        requestWindow: NewSlidingWindow(windowSize),
        stopChan:      make(chan struct{}),
    }
    
    rmc.startCalculation()
    return rmc
}

// 创建滑动窗口
func NewSlidingWindow(size int) *SlidingWindow {
    return &SlidingWindow{
        size:     size,
        requests: make([]RequestRecord, size),
    }
}

// 添加请求记录
func (sw *SlidingWindow) AddRecord(record RequestRecord) {
    sw.requests[sw.index] = record
    sw.index = (sw.index + 1) % sw.size
    if sw.count < sw.size {
        sw.count++
    }
}

// 计算成功率
func (sw *SlidingWindow) CalculateSuccessRate() float64 {
    if sw.count == 0 {
        return 1.0
    }
    
    successCount := 0
    for i := 0; i < sw.count; i++ {
        if sw.requests[i].Success {
            successCount++
        }
    }
    
    return float64(successCount) / float64(sw.count)
}

// 计算请求率
func (sw *SlidingWindow) CalculateRequestRate() float64 {
    if sw.count == 0 {
        return 0.0
    }
    
    // 计算时间窗口内的请求数
    earliest := sw.requests[0].Timestamp
    latest := sw.requests[sw.count-1].Timestamp
    
    if latest.Equal(earliest) {
        return float64(sw.count)
    }
    
    duration := latest.Sub(earliest).Seconds()
    if duration <= 0 {
        return float64(sw.count)
    }
    
    return float64(sw.count) / duration
}

// 开始计算
func (rmc *RealTimeMetricsCalculator) startCalculation() {
    rmc.ticker = time.NewTicker(10 * time.Second)
    
    go func() {
        for {
            select {
            case <-rmc.ticker.C:
                rmc.calculateMetrics()
            case <-rmc.stopChan:
                return
            }
        }
    }()
}

// 计算指标
func (rmc *RealTimeMetricsCalculator) calculateMetrics() {
    rmc.mutex.RLock()
    defer rmc.mutex.RUnlock()
    
    // 计算成功率
    successRate := rmc.requestWindow.CalculateSuccessRate()
    
    // 计算请求率
    requestRate := rmc.requestWindow.CalculateRequestRate()
    
    // 更新 Prometheus 指标
    // 注意：这里需要根据实际的服务标签来更新指标
    // 为简化示例，使用默认标签
    rmc.collector.requestRate.WithLabelValues("default").Set(requestRate)
    
    // 可以根据需要更新其他实时指标
}

// 记录请求
func (rmc *RealTimeMetricsCalculator) RecordRequest(service string, success bool) {
    rmc.mutex.Lock()
    defer rmc.mutex.Unlock()
    
    record := RequestRecord{
        Timestamp: time.Now(),
        Service:   service,
        Success:   success,
    }
    
    rmc.requestWindow.AddRecord(record)
}

// 停止计算
func (rmc *RealTimeMetricsCalculator) Stop() {
    close(rmc.stopChan)
    if rmc.ticker != nil {
        rmc.ticker.Stop()
    }
}

自定义业务指标

除了核心系统指标外，API 网关还需要支持自定义业务指标：

// 自定义业务指标管理器实现示例
type BusinessMetricsManager struct {
    collector *MetricsCollector
    metrics   map[string]prometheus.Gauge
    mutex     sync.RWMutex
}

// 创建业务指标管理器
func NewBusinessMetricsManager(collector *MetricsCollector) *BusinessMetricsManager {
    return &BusinessMetricsManager{
        collector: collector,
        metrics:   make(map[string]prometheus.Gauge),
    }
}

// 注册自定义指标
func (bmm *BusinessMetricsManager) RegisterMetric(name, help string, labels []string) error {
    bmm.mutex.Lock()
    defer bmm.mutex.Unlock()
    
    // 检查指标是否已存在
    if _, exists := bmm.metrics[name]; exists {
        return fmt.Errorf("metric %s already exists", name)
    }
    
    // 创建新的指标
    var metric prometheus.Gauge
    if len(labels) > 0 {
        metric = prometheus.NewGaugeVec(
            prometheus.GaugeOpts{
                Name: name,
                Help: help,
            },
            labels,
        ).(prometheus.Gauge)
    } else {
        metric = prometheus.NewGauge(
            prometheus.GaugeOpts{
                Name: name,
                Help: help,
            },
        )
    }
    
    // 注册指标
    err := prometheus.Register(metric)
    if err != nil {
        return err
    }
    
    bmm.metrics[name] = metric
    return nil
}

// 设置指标值
func (bmm *BusinessMetricsManager) SetMetric(name string, value float64, labels ...string) error {
    bmm.mutex.RLock()
    metric, exists := bmm.metrics[name]
    bmm.mutex.RUnlock()
    
    if !exists {
        return fmt.Errorf("metric %s not found", name)
    }
    
    // 设置指标值
    if gaugeVec, ok := metric.(prometheus.GaugeVec); ok {
        gaugeVec.WithLabelValues(labels...).Set(value)
    } else {
        metric.Set(value)
    }
    
    return nil
}

// 增加指标值
func (bmm *BusinessMetricsManager) IncMetric(name string, labels ...string) error {
    bmm.mutex.RLock()
    metric, exists := bmm.metrics[name]
    bmm.mutex.RUnlock()
    
    if !exists {
        return fmt.Errorf("metric %s not found", name)
    }
    
    // 增加指标值
    if gaugeVec, ok := metric.(prometheus.GaugeVec); ok {
        gaugeVec.WithLabelValues(labels...).Inc()
    } else {
        metric.Inc()
    }
    
    return nil
}

// 减少指标值
func (bmm *BusinessMetricsManager) DecMetric(name string, labels ...string) error {
    bmm.mutex.RLock()
    metric, exists := bmm.metrics[name]
    bmm.mutex.RUnlock()
    
    if !exists {
        return fmt.Errorf("metric %s not found", name)
    }
    
    // 减少指标值
    if gaugeVec, ok := metric.(prometheus.GaugeVec); ok {
        gaugeVec.WithLabelValues(labels...).Dec()
    } else {
        metric.Dec()
    }
    
    return nil
}

// 常用业务指标示例
func (bmm *BusinessMetricsManager) RegisterCommonBusinessMetrics() error {
    metrics := []struct {
        name  string
        help  string
        labels []string
    }{
        {"api_gateway_active_users", "Number of active users", []string{"service"}},
        {"api_gateway_business_transactions", "Number of business transactions", []string{"type", "service"}},
        {"api_gateway_cache_hit_rate", "Cache hit rate", []string{"cache_type"}},
        {"api_gateway_throttled_requests", "Number of throttled requests", []string{"service", "reason"}},
        {"api_gateway_security_events", "Number of security events", []string{"event_type", "severity"}},
    }
    
    for _, m := range metrics {
        if err := bmm.RegisterMetric(m.name, m.help, m.labels); err != nil {
            return err
        }
    }
    
    return nil
}

Metrics 中间件

在 API 网关中实现 Metrics 收集中间件：

// Metrics 中间件实现示例
type MetricsMiddleware struct {
    collector *MetricsCollector
    next      http.Handler
}

// 创建 Metrics 中间件
func NewMetricsMiddleware(collector *MetricsCollector, next http.Handler) *MetricsMiddleware {
    return &MetricsMiddleware{
        collector: collector,
        next:      next,
    }
}

// 处理 HTTP 请求
func (mm *MetricsMiddleware) ServeHTTP(w http.ResponseWriter, r *http.Request) {
    start := time.Now()
    
    // 增加并发请求数
    service := getServiceName(r)
    mm.collector.RecordConcurrentRequest(service, 1)
    defer mm.collector.RecordConcurrentRequest(service, -1)
    
    // 创建响应记录器
    responseRecorder := &ResponseRecorder{
        ResponseWriter: w,
        StatusCode:     200,
    }
    
    // 处理请求
    mm.next.ServeHTTP(responseRecorder, r)
    
    // 计算处理时间
    duration := time.Since(start)
    
    // 记录指标
    labels := MetricLabels{
        Service:    service,
        Method:     r.Method,
        Path:       r.URL.Path,
        StatusCode: strconv.Itoa(responseRecorder.StatusCode),
        ClientIP:   getClientIP(r),
        UserAgent:  r.UserAgent(),
    }
    
    mm.collector.RecordRequest(
        labels,
        duration,
        getRequestSize(r),
        responseRecorder.Written,
    )
}

// 响应记录器
type ResponseRecorder struct {
    http.ResponseWriter
    StatusCode int
    Written    int64
}

func (rr *ResponseRecorder) WriteHeader(statusCode int) {
    rr.StatusCode = statusCode
    rr.ResponseWriter.WriteHeader(statusCode)
}

func (rr *ResponseRecorder) Write(data []byte) (int, error) {
    n, err := rr.ResponseWriter.Write(data)
    rr.Written += int64(n)
    return n, err
}

// 获取服务名称
func getServiceName(r *http.Request) string {
    // 从请求路径或其他信息中提取服务名称
    parts := strings.Split(strings.TrimPrefix(r.URL.Path, "/"), "/")
    if len(parts) > 0 {
        return parts[0]
    }
    return "unknown"
}

// 获取客户端 IP
func getClientIP(r *http.Request) string {
    // 尝试从各种头部获取真实客户端 IP
    if ip := r.Header.Get("X-Forwarded-For"); ip != "" {
        ips := strings.Split(ip, ",")
        return strings.TrimSpace(ips[0])
    }
    
    if ip := r.Header.Get("X-Real-IP"); ip != "" {
        return ip
    }
    
    // 回退到 RemoteAddr
    host, _, _ := net.SplitHostPort(r.RemoteAddr)
    return host
}

// 获取请求大小
func getRequestSize(r *http.Request) int64 {
    if r.ContentLength > 0 {
        return r.ContentLength
    }
    return 0
}

指标暴露和查询

// 指标暴露服务实现示例
type MetricsExporter struct {
    collector *MetricsCollector
    server    *http.Server
}

// 创建指标暴露服务
func NewMetricsExporter(collector *MetricsCollector, port string) *MetricsExporter {
    // 创建 Prometheus HTTP 处理器
    promHandler := promhttp.Handler()
    
    // 创建 HTTP 服务器
    mux := http.NewServeMux()
    mux.Handle("/metrics", promHandler)
    mux.HandleFunc("/health", func(w http.ResponseWriter, r *http.Request) {
        w.WriteHeader(http.StatusOK)
        w.Write([]byte("OK"))
    })
    
    server := &http.Server{
        Addr:    ":" + port,
        Handler: mux,
    }
    
    return &MetricsExporter{
        collector: collector,
        server:    server,
    }
}

// 启动指标暴露服务
func (me *MetricsExporter) Start() error {
    log.Printf("Starting metrics exporter on %s", me.server.Addr)
    return me.server.ListenAndServe()
}

// 停止指标暴露服务
func (me *MetricsExporter) Stop() error {
    return me.server.Close()
}

// 自定义指标查询接口
type MetricsQueryAPI struct {
    collector *MetricsCollector
}

// 创建指标查询 API
func NewMetricsQueryAPI(collector *MetricsCollector) *MetricsQueryAPI {
    return &MetricsQueryAPI{
        collector: collector,
    }
}

// 查询指标
func (mqa *MetricsQueryAPI) QueryMetrics(w http.ResponseWriter, r *http.Request) {
    // 解析查询参数
    service := r.URL.Query().Get("service")
    metricName := r.URL.Query().Get("metric")
    startTimeStr := r.URL.Query().Get("start")
    endTimeStr := r.URL.Query().Get("end")
    
    // 设置默认值
    if service == "" {
        service = "all"
    }
    
    // 解析时间范围
    var startTime, endTime time.Time
    var err error
    
    if startTimeStr != "" {
        startTime, err = time.Parse(time.RFC3339, startTimeStr)
        if err != nil {
            http.Error(w, "Invalid start time", http.StatusBadRequest)
            return
        }
    } else {
        startTime = time.Now().Add(-1 * time.Hour)
    }
    
    if endTimeStr != "" {
        endTime, err = time.Parse(time.RFC3339, endTimeStr)
        if err != nil {
            http.Error(w, "Invalid end time", http.StatusBadRequest)
            return
        }
    } else {
        endTime = time.Now()
    }
    
    // 执行查询
    result, err := mqa.executeQuery(service, metricName, startTime, endTime)
    if err != nil {
        http.Error(w, err.Error(), http.StatusInternalServerError)
        return
    }
    
    // 返回结果
    w.Header().Set("Content-Type", "application/json")
    json.NewEncoder(w).Encode(result)
}

// 执行查询
func (mqa *MetricsQueryAPI) executeQuery(service, metricName string, startTime, endTime time.Time) (interface{}, error) {
    // 这里需要实现具体的查询逻辑
    // 可以查询 Prometheus 或其他时间序列数据库
    
    // 为简化示例，返回模拟数据
    return map[string]interface{}{
        "service": service,
        "metric":  metricName,
        "start":   startTime.Format(time.RFC3339),
        "end":     endTime.Format(time.RFC3339),
        "data": []map[string]interface{}{
            {"timestamp": time.Now().Add(-10 * time.Minute).Format(time.RFC3339), "value": 100},
            {"timestamp": time.Now().Add(-5 * time.Minute).Format(time.RFC3339), "value": 150},
            {"timestamp": time.Now().Format(time.RFC3339), "value": 200},
        },
    }, nil
}

指标聚合和分析

// 指标聚合器实现示例
type MetricsAggregator struct {
    collector *MetricsCollector
    aggregations map[string]*Aggregation
    mutex     sync.RWMutex
    ticker    *time.Ticker
    stopChan  chan struct{}
}

type Aggregation struct {
    Name        string
    Type        AggregationType
    Metric      string
    Labels      []string
    Window      time.Duration
    Values      []AggregatedValue
    LastUpdate  time.Time
}

type AggregationType string

const (
    AggTypeSum    AggregationType = "sum"
    AggTypeAvg    AggregationType = "avg"
    AggTypeMax    AggregationType = "max"
    AggTypeMin    AggregationType = "min"
    AggTypeCount  AggregationType = "count"
)

type AggregatedValue struct {
    Timestamp time.Time
    Value     float64
    Labels    map[string]string
}

// 创建指标聚合器
func NewMetricsAggregator(collector *MetricsCollector) *MetricsAggregator {
    ma := &MetricsAggregator{
        collector:    collector,
        aggregations: make(map[string]*Aggregation),
        stopChan:     make(chan struct{}),
    }
    
    ma.startAggregation()
    return ma
}

// 添加聚合
func (ma *MetricsAggregator) AddAggregation(name string, aggType AggregationType, metric string, labels []string, window time.Duration) error {
    ma.mutex.Lock()
    defer ma.mutex.Unlock()
    
    if _, exists := ma.aggregations[name]; exists {
        return fmt.Errorf("aggregation %s already exists", name)
    }
    
    ma.aggregations[name] = &Aggregation{
        Name:   name,
        Type:   aggType,
        Metric: metric,
        Labels: labels,
        Window: window,
        Values: make([]AggregatedValue, 0),
    }
    
    return nil
}

// 开始聚合
func (ma *MetricsAggregator) startAggregation() {
    ma.ticker = time.NewTicker(1 * time.Minute)
    
    go func() {
        for {
            select {
            case <-ma.ticker.C:
                ma.performAggregation()
            case <-ma.stopChan:
                return
            }
        }
    }()
}

// 执行聚合
func (ma *MetricsAggregator) performAggregation() {
    ma.mutex.Lock()
    defer ma.mutex.Unlock()
    
    now := time.Now()
    
    for _, agg := range ma.aggregations {
        // 计算聚合值
        value, err := ma.calculateAggregation(agg)
        if err != nil {
            log.Printf("Failed to calculate aggregation %s: %v", agg.Name, err)
            continue
        }
        
        // 添加到值列表
        aggValue := AggregatedValue{
            Timestamp: now,
            Value:     value,
            Labels:    make(map[string]string),
        }
        
        agg.Values = append(agg.Values, aggValue)
        
        // 清理过期数据
        cutoff := now.Add(-agg.Window)
        for i, v := range agg.Values {
            if v.Timestamp.After(cutoff) {
                agg.Values = agg.Values[i:]
                break
            }
        }
        
        agg.LastUpdate = now
    }
}

// 计算聚合值
func (ma *MetricsAggregator) calculateAggregation(agg *Aggregation) (float64, error) {
    // 这里需要实现具体的聚合计算逻辑
    // 由于我们没有直接访问 Prometheus 数据的方法，
    // 这里返回模拟值
    
    // 实际实现中，可能需要：
    // 1. 查询 Prometheus 或其他时间序列数据库
    // 2. 根据聚合类型计算结果
    // 3. 考虑标签过滤
    
    return rand.Float64() * 1000, nil
}

// 获取聚合结果
func (ma *MetricsAggregator) GetAggregation(name string) (*Aggregation, error) {
    ma.mutex.RLock()
    defer ma.mutex.RUnlock()
    
    agg, exists := ma.aggregations[name]
    if !exists {
        return nil, fmt.Errorf("aggregation %s not found", name)
    }
    
    return agg, nil
}

// 停止聚合
func (ma *MetricsAggregator) Stop() {
    close(ma.stopChan)
    if ma.ticker != nil {
        ma.ticker.Stop()
    }
}

最佳实践

指标设计原则

命名规范：使用清晰、一致的命名规范
标签设计：合理设计标签以支持灵活的查询和聚合
指标粒度：平衡指标的详细程度和存储成本
性能考虑：避免过度收集指标影响系统性能

监控策略

分层监控：实现基础设施、应用、业务三层监控
关键指标：重点关注影响用户体验的关键指标
趋势分析：关注指标的变化趋势而非绝对值
基线建立：建立正常运行状态的基线用于对比

告警配置

合理阈值：根据历史数据和业务特点设置告警阈值
分级告警：实现不同严重程度的告警级别
告警抑制：避免在系统故障时产生大量告警
告警通知：配置合适的告警通知渠道和人员

性能优化

采样策略：对高频指标实施采样以减少存储压力
批量处理：批量收集和处理指标数据
内存优化：合理管理指标数据的内存使用
异步处理：使用异步方式处理指标收集以避免影响主流程

Metrics 指标监控是 API 网关可观测性体系的核心组成部分。通过实现请求相关指标、实时指标计算、自定义业务指标、Metrics 中间件、指标暴露和查询、指标聚合和分析等机制，可以构建一个全面、高效的指标监控系统。在实际应用中，需要根据业务需求和技术架构选择合适的监控策略，并持续优化指标收集和处理性能，确保系统能够稳定、准确地收集和暴露各种性能指标，为系统监控、问题排查和性能优化提供有力支持。