基于Kubernetes HPA的限流: 结合自定义指标（如QPS）进行自动扩缩容

老马啸西风2025/9/7大约 9 分钟

在云原生时代，Kubernetes已成为容器编排的事实标准，而水平Pod自动扩缩容（Horizontal Pod Autoscaler, HPA）是Kubernetes中实现自动扩缩容的核心机制。将分布式限流系统与Kubernetes HPA深度集成，通过自定义指标（如QPS）驱动自动扩缩容，能够实现更加智能和高效的资源管理。本章将深入探讨如何基于Kubernetes HPA实现限流驱动的自动扩缩容，并提供完整的实现方案和最佳实践。

Kubernetes HPA概述

HPA工作原理

Kubernetes HPA通过监控Pod的资源使用情况，自动调整Deployment或ReplicaSet中的Pod副本数量。HPA支持多种指标类型：

资源指标：CPU、内存等核心资源使用率
自定义指标：应用特定的业务指标
外部指标：来自集群外部的指标

HPA与限流系统的结合价值

将HPA与限流系统结合具有以下价值：

动态资源调整：根据流量负载自动调整服务实例数量
成本优化：在低负载时减少资源使用，降低成本
性能保障：在高负载时自动扩容，保障服务质量
运维简化：减少人工干预，提高系统自治能力

自定义指标适配器开发

Metrics Server架构

为了使HPA能够使用自定义指标，需要部署自定义指标适配器：

# 自定义指标适配器部署配置
apiVersion: apps/v1
kind: Deployment
metadata:
  name: custom-metrics-adapter
  namespace: monitoring
spec:
  replicas: 1
  selector:
    matchLabels:
      app: custom-metrics-adapter
  template:
    metadata:
      labels:
        app: custom-metrics-adapter
    spec:
      containers:
      - name: custom-metrics-adapter
        image: registry.cn-hangzhou.aliyuncs.com/kubeapps/custom-metrics-adapter:v0.1.0
        ports:
        - containerPort: 6443
        env:
        - name: PROMETHEUS_URL
          value: "http://prometheus-k8s.monitoring.svc:9090"
        - name: METRICS_RELIST_INTERVAL
          value: "30s"
        - name: METRICS_RELIST_TIMEOUT
          value: "5s"
        resources:
          limits:
            cpu: 200m
            memory: 200Mi
          requests:
            cpu: 100m
            memory: 100Mi
---
apiVersion: v1
kind: Service
metadata:
  name: custom-metrics-adapter
  namespace: monitoring
spec:
  ports:
  - port: 443
    targetPort: 6443
  selector:
    app: custom-metrics-adapter

限流指标暴露

为了让HPA能够获取限流相关指标，需要在应用中暴露这些指标：

// 限流指标暴露服务
@Component
public class RateLimitMetricsExporter {
    private final MeterRegistry meterRegistry;
    private final RateLimitService rateLimitService;
    
    public RateLimitMetricsExporter(MeterRegistry meterRegistry,
                                  RateLimitService rateLimitService) {
        this.meterRegistry = meterRegistry;
        this.rateLimitService = rateLimitService;
        
        // 定期更新指标
        ScheduledExecutorService scheduler = Executors.newScheduledThreadPool(1);
        scheduler.scheduleAtFixedRate(this::updateMetrics, 0, 10, TimeUnit.SECONDS);
    }
    
    private void updateMetrics() {
        try {
            // 获取当前QPS指标
            double currentQps = rateLimitService.getCurrentQps();
            
            // 更新Prometheus指标
            Gauge.builder("application.rate_limit.qps")
                .description("Current QPS of rate limit service")
                .register(meterRegistry, currentQps);
            
            // 获取限流触发次数
            long triggerCount = rateLimitService.getTriggerCount();
            
            Gauge.builder("application.rate_limit.trigger_count")
                .description("Total rate limit trigger count")
                .register(meterRegistry, (double) triggerCount);
            
            // 获取通过的请求数
            long passCount = rateLimitService.getPassCount();
            
            Gauge.builder("application.rate_limit.pass_count")
                .description("Total passed request count")
                .register(meterRegistry, (double) passCount);
        } catch (Exception e) {
            log.error("Failed to update rate limit metrics", e);
        }
    }
}

Prometheus配置

配置Prometheus抓取应用指标：

# Prometheus配置
global:
  scrape_interval: 15s
  evaluation_interval: 15s

scrape_configs:
- job_name: 'rate-limit-service'
  kubernetes_sd_configs:
  - role: pod
  relabel_configs:
  - source_labels: [__meta_kubernetes_pod_label_app]
    action: keep
    regex: rate-limit-service
  - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]
    action: replace
    regex: ([^:]+)(?::\d+)?;(\d+)
    replacement: $1:$2
    target_label: __address__
  - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]
    action: replace
    target_label: __metrics_path__
    regex: (.+)
  - source_labels: [__meta_kubernetes_pod_name]
    action: replace
    target_label: pod
  - source_labels: [__meta_kubernetes_namespace]
    action: replace
    target_label: namespace

HPA配置与实现

基于QPS的HPA配置

# 基于QPS的HPA配置
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: rate-limit-service-hpa
  namespace: default
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: rate-limit-service
  minReplicas: 3
  maxReplicas: 20
  metrics:
  - type: Pods
    pods:
      metric:
        name: application_rate_limit_qps
      target:
        type: AverageValue
        averageValue: "1000"  # 每个Pod平均处理1000 QPS
  behavior:
    scaleDown:
      stabilizationWindowSeconds: 300
      policies:
      - type: Percent
        value: 10
        periodSeconds: 60
    scaleUp:
      stabilizationWindowSeconds: 60
      policies:
      - type: Percent
        value: 50
        periodSeconds: 60
      - type: Pods
        value: 4
        periodSeconds: 60
      selectPolicy: Max

基于限流触发次数的HPA配置

# 基于限流触发次数的HPA配置
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: rate-limit-service-trigger-hpa
  namespace: default
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: rate-limit-service
  minReplicas: 2
  maxReplicas: 15
  metrics:
  - type: Pods
    pods:
      metric:
        name: application_rate_limit_trigger_count
      target:
        type: AverageValue
        averageValue: "100"  # 每个Pod平均每分钟触发100次限流
  behavior:
    scaleDown:
      stabilizationWindowSeconds: 600
      policies:
      - type: Percent
        value: 5
        periodSeconds: 120
    scaleUp:
      stabilizationWindowSeconds: 30
      policies:
      - type: Percent
        value: 100
        periodSeconds: 60

复合指标HPA配置

# 复合指标HPA配置
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: rate-limit-service-composite-hpa
  namespace: default
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: rate-limit-service
  minReplicas: 2
  maxReplicas: 25
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 70
  - type: Pods
    pods:
      metric:
        name: application_rate_limit_qps
      target:
        type: AverageValue
        averageValue: "800"
  - type: Pods
    pods:
      metric:
        name: application_rate_limit_trigger_count
      target:
        type: AverageValue
        averageValue: "50"
  behavior:
    scaleDown:
      stabilizationWindowSeconds: 300
      policies:
      - type: Percent
        value: 10
        periodSeconds: 120
    scaleUp:
      stabilizationWindowSeconds: 60
      policies:
      - type: Percent
        value: 50
        periodSeconds: 60

智能扩缩容策略

基于预测的扩缩容

// 基于预测的扩缩容控制器
@Component
public class PredictiveScalingController {
    private final MetricsQueryService metricsService;
    private final KubernetesClient kubernetesClient;
    private final TimeSeriesPredictor predictor;
    private final ScheduledExecutorService scheduler;
    
    public PredictiveScalingController(MetricsQueryService metricsService,
                                     KubernetesClient kubernetesClient,
                                     TimeSeriesPredictor predictor) {
        this.metricsService = metricsService;
        this.kubernetesClient = kubernetesClient;
        this.predictor = predictor;
        this.scheduler = Executors.newScheduledThreadPool(1);
        
        // 启动预测性扩缩容任务
        scheduler.scheduleAtFixedRate(this::predictiveScaling, 0, 5, TimeUnit.MINUTES);
    }
    
    private void predictiveScaling() {
        try {
            // 获取历史QPS数据
            List<Double> historicalQps = metricsService.getHistoricalQps(24 * 7); // 一周数据
            
            // 预测未来1小时的QPS
            TimeSeriesPredictor.PredictionResult prediction = 
                predictor.predict(historicalQps, 60); // 预测60分钟
                
            // 根据预测结果调整副本数
            adjustReplicasBasedOnPrediction(prediction);
        } catch (Exception e) {
            log.error("Failed to perform predictive scaling", e);
        }
    }
    
    private void adjustReplicasBasedOnPrediction(
            TimeSeriesPredictor.PredictionResult prediction) {
        try {
            // 获取当前副本数
            Deployment deployment = kubernetesClient.apps().deployments()
                .inNamespace("default")
                .withName("rate-limit-service")
                .get();
                
            int currentReplicas = deployment.getSpec().getReplicas();
            
            // 计算预测所需的副本数
            int predictedQps = (int) Math.ceil(prediction.getPredictedValue());
            int requiredReplicas = calculateRequiredReplicas(predictedQps);
            
            // 如果预测副本数比当前副本数高20%以上，则提前扩容
            if (requiredReplicas > currentReplicas * 1.2) {
                log.info("Predictive scaling: increasing replicas from {} to {}", 
                    currentReplicas, requiredReplicas);
                
                // 更新Deployment副本数
                kubernetesClient.apps().deployments()
                    .inNamespace("default")
                    .withName("rate-limit-service")
                    .scale(requiredReplicas);
            }
        } catch (Exception e) {
            log.error("Failed to adjust replicas based on prediction", e);
        }
    }
    
    private int calculateRequiredReplicas(int predictedQps) {
        // 假设每个Pod可以处理1000 QPS
        int qpsPerPod = 1000;
        return Math.max(2, (int) Math.ceil((double) predictedQps / qpsPerPod));
    }
    
    // 时间序列预测器
    public static class TimeSeriesPredictor {
        public PredictionResult predict(List<Double> historicalData, int minutesAhead) {
            // 简化的预测算法
            if (historicalData.isEmpty()) {
                return new PredictionResult(0, 0, 0);
            }
            
            // 计算移动平均值作为预测值
            double sum = 0;
            int count = 0;
            // 取最近1小时的数据进行预测
            int startIndex = Math.max(0, historicalData.size() - 6);
            for (int i = startIndex; i < historicalData.size(); i++) {
                sum += historicalData.get(i);
                count++;
            }
            
            double predictedValue = count > 0 ? sum / count : 0;
            
            // 计算置信区间
            double variance = 0;
            for (int i = startIndex; i < historicalData.size(); i++) {
                variance += Math.pow(historicalData.get(i) - predictedValue, 2);
            }
            double stdDev = count > 1 ? Math.sqrt(variance / (count - 1)) : 0;
            
            return new PredictionResult(
                predictedValue,
                predictedValue - 1.96 * stdDev, // 95%置信下限
                predictedValue + 1.96 * stdDev  // 95%置信上限
            );
        }
        
        public static class PredictionResult {
            private final double predictedValue;
            private final double lowerBound;
            private final double upperBound;
            
            public PredictionResult(double predictedValue, double lowerBound, double upperBound) {
                this.predictedValue = predictedValue;
                this.lowerBound = lowerBound;
                this.upperBound = upperBound;
            }
            
            // getter方法
            public double getPredictedValue() { return predictedValue; }
            public double getLowerBound() { return lowerBound; }
            public double getUpperBound() { return upperBound; }
        }
    }
}

基于负载的扩缩容

// 基于负载的扩缩容控制器
@Component
public class LoadBasedScalingController {
    private final SystemMetricsCollector metricsCollector;
    private final KubernetesClient kubernetesClient;
    private final ScheduledExecutorService scheduler;
    
    public LoadBasedScalingController(SystemMetricsCollector metricsCollector,
                                    KubernetesClient kubernetesClient) {
        this.metricsCollector = metricsCollector;
        this.kubernetesClient = kubernetesClient;
        this.scheduler = Executors.newScheduledThreadPool(1);
        
        // 启动负载驱动的扩缩容任务
        scheduler.scheduleAtFixedRate(this::loadBasedScaling, 0, 2, TimeUnit.MINUTES);
    }
    
    private void loadBasedScaling() {
        try {
            // 获取系统负载指标
            SystemMetrics metrics = metricsCollector.collect();
            
            // 获取当前副本数
            Deployment deployment = kubernetesClient.apps().deployments()
                .inNamespace("default")
                .withName("rate-limit-service")
                .get();
                
            int currentReplicas = deployment.getSpec().getReplicas();
            
            // 根据负载指标计算所需的副本数
            int requiredReplicas = calculateReplicasBasedOnLoad(metrics, currentReplicas);
            
            // 如果副本数需要调整，则更新Deployment
            if (requiredReplicas != currentReplicas) {
                log.info("Load-based scaling: adjusting replicas from {} to {}", 
                    currentReplicas, requiredReplicas);
                
                kubernetesClient.apps().deployments()
                    .inNamespace("default")
                    .withName("rate-limit-service")
                    .scale(requiredReplicas);
            }
        } catch (Exception e) {
            log.error("Failed to perform load-based scaling", e);
        }
    }
    
    private int calculateReplicasBasedOnLoad(SystemMetrics metrics, int currentReplicas) {
        double cpuUsage = metrics.getCpuUsage();
        double memoryUsage = metrics.getMemoryUsage();
        double qps = metrics.getQps();
        
        // 基于CPU使用率调整
        int cpuBasedReplicas = currentReplicas;
        if (cpuUsage > 80) {
            cpuBasedReplicas = (int) Math.ceil(currentReplicas * 1.5);
        } else if (cpuUsage < 30) {
            cpuBasedReplicas = Math.max(2, (int) Math.floor(currentReplicas * 0.8));
        }
        
        // 基于内存使用率调整
        int memoryBasedReplicas = currentReplicas;
        if (memoryUsage > 85) {
            memoryBasedReplicas = (int) Math.ceil(currentReplicas * 1.3);
        } else if (memoryUsage < 40) {
            memoryBasedReplicas = Math.max(2, (int) Math.floor(currentReplicas * 0.9));
        }
        
        // 基于QPS调整
        int qpsBasedReplicas = currentReplicas;
        if (qps > 5000) { // 假设每个Pod处理1000 QPS
            qpsBasedReplicas = (int) Math.ceil(qps / 1000);
        } else if (qps < 1000) {
            qpsBasedReplicas = Math.max(2, (int) Math.floor(currentReplicas * 0.9));
        }
        
        // 取最大值作为最终副本数
        return Math.max(Math.max(cpuBasedReplicas, memoryBasedReplicas), qpsBasedReplicas);
    }
    
    // 系统指标收集器
    public static class SystemMetricsCollector {
        private final MeterRegistry meterRegistry;
        
        public SystemMetricsCollector(MeterRegistry meterRegistry) {
            this.meterRegistry = meterRegistry;
        }
        
        public SystemMetrics collect() {
            SystemMetrics metrics = new SystemMetrics();
            
            // 收集CPU使用率
            OperatingSystemMXBean osBean = ManagementFactory.getOperatingSystemMXBean();
            metrics.setCpuUsage(osBean.getSystemLoadAverage() * 100 / 
                               Runtime.getRuntime().availableProcessors());
            
            // 收集内存使用率
            MemoryMXBean memoryBean = ManagementFactory.getMemoryMXBean();
            MemoryUsage heapUsage = memoryBean.getHeapMemoryUsage();
            if (heapUsage.getMax() > 0) {
                metrics.setMemoryUsage((double) heapUsage.getUsed() / heapUsage.getMax() * 100);
            }
            
            // 收集QPS指标
            Timer httpTimer = meterRegistry.find("http.server.requests").timer();
            if (httpTimer != null) {
                metrics.setQps(httpTimer.count() / 60.0); // 每分钟请求数转换为QPS
            }
            
            return metrics;
        }
    }
    
    // 系统指标
    public static class SystemMetrics {
        private double cpuUsage;
        private double memoryUsage;
        private double qps;
        
        // getter和setter方法
        public double getCpuUsage() { return cpuUsage; }
        public void setCpuUsage(double cpuUsage) { this.cpuUsage = cpuUsage; }
        public double getMemoryUsage() { return memoryUsage; }
        public void setMemoryUsage(double memoryUsage) { this.memoryUsage = memoryUsage; }
        public double getQps() { return qps; }
        public void setQps(double qps) { this.qps = qps; }
    }
}

扩缩容监控与告警

扩缩容事件监控

// 扩缩容事件监控组件
@Component
public class ScalingEventMonitor {
    private final MeterRegistry meterRegistry;
    private final KubernetesClient kubernetesClient;
    
    public ScalingEventMonitor(MeterRegistry meterRegistry,
                             KubernetesClient kubernetesClient) {
        this.meterRegistry = meterRegistry;
        this.kubernetesClient = kubernetesClient;
        
        // 启动扩缩容事件监听
        startScalingEventWatcher();
    }
    
    private void startScalingEventWatcher() {
        // 监听Deployment的扩缩容事件
        kubernetesClient.apps().deployments()
            .inAnyNamespace()
            .watch(new Watcher<Deployment>() {
                @Override
                public void eventReceived(Action action, Deployment deployment) {
                    if (action == Action.MODIFIED && 
                        "rate-limit-service".equals(deployment.getMetadata().getName())) {
                        
                        // 记录扩缩容事件
                        recordScalingEvent(deployment);
                    }
                }
                
                @Override
                public void onClose(WatcherException cause) {
                    log.warn("Scaling event watcher closed", cause);
                }
            });
    }
    
    private void recordScalingEvent(Deployment deployment) {
        try {
            int replicas = deployment.getSpec().getReplicas();
            int oldReplicas = deployment.getStatus().getReplicas();
            
            if (replicas != oldReplicas) {
                log.info("Scaling event: {} replicas changed from {} to {}", 
                    deployment.getMetadata().getName(), oldReplicas, replicas);
                
                // 记录指标
                Counter.builder("kubernetes.scaling.events")
                    .tag("deployment", deployment.getMetadata().getName())
                    .tag("namespace", deployment.getMetadata().getNamespace())
                    .register(meterRegistry)
                    .increment();
                
                // 记录副本数变化
                Gauge.builder("kubernetes.deployment.replicas")
                    .tag("deployment", deployment.getMetadata().getName())
                    .tag("namespace", deployment.getMetadata().getNamespace())
                    .register(meterRegistry, replicas);
            }
        } catch (Exception e) {
            log.error("Failed to record scaling event", e);
        }
    }
}

扩缩容告警规则

# 扩缩容相关告警规则
alerting:
  rules:
    - name: "Rapid Scaling Detected"
      metric: "kubernetes.scaling.events"
      condition: "rate(kubernetes_scaling_events[5m]) > 2"
      duration: "2m"
      severity: "warning"
      message: "Rapid scaling detected for deployment {{deployment}} in namespace {{namespace}}"
      
    - name: "High Replica Count"
      metric: "kubernetes.deployment.replicas"
      condition: "kubernetes_deployment_replicas > 20"
      duration: "5m"
      severity: "warning"
      message: "High replica count ({{value}}) for deployment {{deployment}}"
      
    - name: "Low Replica Count"
      metric: "kubernetes.deployment.replicas"
      condition: "kubernetes_deployment_replicas < 2"
      duration: "5m"
      severity: "warning"
      message: "Low replica count ({{value}}) for deployment {{deployment}}"
      
    - name: "Scaling Stuck"
      metric: "kubernetes.deployment.replicas"
      condition: "kubernetes_deployment_replicas != kubernetes_deployment_ready_replicas"
      duration: "10m"
      severity: "critical"
      message: "Scaling operation stuck for deployment {{deployment}}: desired {{kubernetes_deployment_replicas}}, ready {{kubernetes_deployment_ready_replicas}}"

最佳实践与经验总结

配置建议

合理设置扩缩容阈值：避免过于敏感导致频繁扩缩容
设置扩缩容稳定窗口：防止抖动导致的不稳定扩缩容
配置扩缩容行为策略：控制扩缩容的速度和幅度
监控关键指标：实时监控扩缩容事件和系统状态

注意事项

避免冷启动问题：新启动的Pod需要预热时间
考虑资源限制：确保集群有足够的资源支持扩缩容
处理扩缩容延迟：HPA的调整不是实时的，需要考虑延迟影响
防止级联故障：避免因一个服务的扩缩容引发其他服务问题

通过以上实现，我们构建了一个完整的基于Kubernetes HPA的限流驱动自动扩缩容系统。该系统能够根据QPS等自定义指标自动调整服务实例数量，在保障服务质量的同时优化资源使用。在实际应用中，需要根据具体的业务场景和系统特点调整配置参数，以达到最佳的扩缩容效果。