Kubernetes性能优化与调优：构建高效稳定的容器平台

老马啸西风2025/8/31大约 5 分钟

在云原生环境中，Kubernetes集群的性能直接影响应用的响应速度、资源利用率和用户体验。随着集群规模的增长和应用复杂性的提升，性能优化和调优变得越来越重要。本章将深入探讨Kubernetes性能优化的核心原则、Pod和节点资源调度管理、集群负载均衡与资源分配、性能瓶颈诊断与解决方法，以及节点和Pod的资源限制与请求设置，帮助读者构建高效稳定的容器平台。

Pod 和节点资源调度与管理

资源请求与限制

合理设置资源请求和限制是性能优化的基础。

资源请求（Requests）

资源请求是Pod对资源的最小需求，Kubernetes调度器使用这些信息来决定将Pod调度到哪个节点。

apiVersion: v1
kind: Pod
metadata:
  name: resource-demo
spec:
  containers:
  - name: app
    image: nginx
    resources:
      requests:
        memory: "64Mi"
        cpu: "250m"
      limits:
        memory: "128Mi"
        cpu: "500m"

资源限制（Limits）

资源限制是Pod可以使用的资源上限，防止Pod消耗过多资源影响其他Pod。

调度策略优化

亲和性与反亲和性

apiVersion: v1
kind: Pod
metadata:
  name: affinity-pod
spec:
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: kubernetes.io/e2e-az-name
            operator: In
            values:
            - e2e-az1
            - e2e-az2
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: security
            operator: In
            values:
            - S1
        topologyKey: topology.kubernetes.io/zone
    podAntiAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 100
        podAffinityTerm:
          labelSelector:
            matchExpressions:
            - key: security
              operator: In
              values:
              - S2
          topologyKey: topology.kubernetes.io/zone

污点与容忍

# 为节点添加污点
kubectl taint nodes node1 key=value:NoSchedule

# Pod容忍污点
apiVersion: v1
kind: Pod
metadata:
  name: tolerant-pod
spec:
  tolerations:
  - key: "key"
    operator: "Equal"
    value: "value"
    effect: "NoSchedule"

资源配额管理

ResourceQuota

apiVersion: v1
kind: ResourceQuota
metadata:
  name: compute-resources
spec:
  hard:
    requests.cpu: "1"
    requests.memory: 1Gi
    limits.cpu: "2"
    limits.memory: 2Gi
    requests.nvidia.com/gpu: 4

LimitRange

apiVersion: v1
kind: LimitRange
metadata:
  name: cpu-min-max-demo-lr
spec:
  limits:
  - max:
      cpu: "800m"
    min:
      cpu: "100m"
    type: Container

集群负载均衡与资源分配

负载均衡策略

Service负载均衡

apiVersion: v1
kind: Service
metadata:
  name: loadbalancer-service
spec:
  type: LoadBalancer
  selector:
    app: MyApp
  ports:
    - protocol: TCP
      port: 80
      targetPort: 9376
  sessionAffinity: ClientIP
  sessionAffinityConfig:
    clientIP:
      timeoutSeconds: 10800

Ingress负载均衡

apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: ingress-loadbalancer
  annotations:
    nginx.ingress.kubernetes.io/upstream-hash-by: "$remote_addr"
spec:
  rules:
  - host: example.com
    http:
      paths:
      - path: /
        pathType: Prefix
        backend:
          service:
            name: my-service
            port:
              number: 80

资源分配优化

垂直Pod自动扩缩容（VPA）

apiVersion: autoscaling.k8s.io/v1
kind: VerticalPodAutoscaler
metadata:
  name: my-vpa
spec:
  targetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: my-deployment
  updatePolicy:
    updateMode: "Auto"

水平Pod自动扩缩容（HPA）

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: php-apache
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: php-apache
  minReplicas: 1
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 50

集群自动扩缩容

Cluster Autoscaler

# AWS集群自动扩缩容器
kubectl apply -f https://raw.githubusercontent.com/kubernetes/autoscaler/master/cluster-autoscaler/cloudprovider/aws/examples/cluster-autoscaler-run-on-master.yaml

配置示例：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: cluster-autoscaler
  namespace: kube-system
spec:
  template:
    spec:
      containers:
      - image: k8s.gcr.io/autoscaling/cluster-autoscaler:v1.21.0
        name: cluster-autoscaler
        command:
        - ./cluster-autoscaler
        - --v=4
        - --stderrthreshold=info
        - --cloud-provider=aws
        - --skip-nodes-with-local-storage=false
        - --expander=least-waste
        - --node-group-auto-discovery=asg:tag=k8s.io/cluster-autoscaler/enabled,k8s.io/cluster-autoscaler/my-cluster

Kubernetes 性能瓶颈的诊断与解决

性能监控工具

使用 kubectl top 命令

# 查看节点资源使用情况
kubectl top nodes

# 查看Pod资源使用情况
kubectl top pods --all-namespaces

# 按CPU使用率排序
kubectl top pods --sort-by=cpu

# 按内存使用率排序
kubectl top pods --sort-by=memory

使用 kubectl describe 分析

# 分析Pod状态
kubectl describe pod <pod-name>

# 分析节点状态
kubectl describe node <node-name>

常见性能瓶颈

CPU瓶颈

# 查看CPU使用率高的Pod
kubectl top pods --sort-by=cpu | head -10

# 分析Pod的CPU限制
kubectl get pod <pod-name> -o jsonpath='{.spec.containers[*].resources.limits.cpu}'

内存瓶颈

# 查看内存使用率高的Pod
kubectl top pods --sort-by=memory | head -10

# 检查Pod是否因OOM被终止
kubectl describe pod <pod-name> | grep -i "oom"

网络瓶颈

# 检查网络策略
kubectl get networkpolicies --all-namespaces

# 检查Service配置
kubectl describe service <service-name>

存储瓶颈

# 检查PV状态
kubectl get pv

# 检查PVC状态
kubectl get pvc --all-namespaces

性能调优策略

调整资源分配

apiVersion: apps/v1
kind: Deployment
metadata:
  name: optimized-deployment
spec:
  replicas: 3
  template:
    spec:
      containers:
      - name: app
        image: nginx
        resources:
          requests:
            memory: "128Mi"
            cpu: "250m"
          limits:
            memory: "256Mi"
            cpu: "500m"
        livenessProbe:
          httpGet:
            path: /health
            port: 8080
          initialDelaySeconds: 30
          periodSeconds: 10
        readinessProbe:
          httpGet:
            path: /ready
            port: 8080
          initialDelaySeconds: 5
          periodSeconds: 5

优化调度策略

apiVersion: apps/v1
kind: Deployment
metadata:
  name: scheduling-optimized
spec:
  template:
    spec:
      affinity:
        podAntiAffinity:
          preferredDuringSchedulingIgnoredDuringExecution:
          - weight: 100
            podAffinityTerm:
              labelSelector:
                matchExpressions:
                - key: app
                  operator: In
                  values:
                  - my-app
              topologyKey: kubernetes.io/hostname
      topologySpreadConstraints:
      - maxSkew: 1
        topologyKey: kubernetes.io/hostname
        whenUnsatisfiable: DoNotSchedule
        labelSelector:
          matchLabels:
            app: my-app

节点和 Pod 的资源限制与请求设置

资源单位说明

CPU单位

1 CPU = 1 vCPU/Core
1000m = 1 CPU
500m = 0.5 CPU

内存单位

E, P, T, G, M, K（十进制单位）
Ei, Pi, Ti, Gi, Mi, Ki（二进制单位）
1Gi = 1024Mi

最佳资源配置实践

应用类型资源配置

Web应用

resources:
  requests:
    memory: "256Mi"
    cpu: "250m"
  limits:
    memory: "512Mi"
    cpu: "500m"

数据库应用

resources:
  requests:
    memory: "2Gi"
    cpu: "1"
  limits:
    memory: "4Gi"
    cpu: "2"

缓存应用

resources:
  requests:
    memory: "1Gi"
    cpu: "500m"
  limits:
    memory: "2Gi"
    cpu: "1"

QoS（服务质量）等级

Kubernetes根据资源配置将Pod分为三个QoS等级：

Guaranteed（保证型）

resources:
  limits:
    cpu: "1"
    memory: "1Gi"
  requests:
    cpu: "1"
    memory: "1Gi"

Burstable（突发型）

resources:
  limits:
    cpu: "2"
    memory: "2Gi"
  requests:
    cpu: "1"
    memory: "1Gi"

BestEffort（尽力而为型）

# 未设置资源请求和限制

资源优化工具

使用 kube-resource-report

# 安装kube-resource-report
pip install kube-resource-report

# 生成资源报告
kube-resource-report --cluster-name my-cluster

使用 kubectl-view-utilization

# 安装kubectl-view-utilization插件
kubectl krew install view-utilization

# 查看集群资源利用率
kubectl view-utilization

性能调优检查清单

资源配置：
- 合理设置请求和限制
- 避免资源浪费
- 考虑QoS等级
调度优化：
- 使用亲和性策略
- 配置污点容忍
- 实施拓扑分布约束
自动扩缩容：
- 配置HPA和VPA
- 设置集群自动扩缩容
- 监控扩缩容效果
监控告警：
- 设置关键指标监控
- 配置性能告警
- 定期审查监控数据
持续优化：
- 定期性能评估
- 分析资源使用模式
- 调整优化策略

通过本章的学习，读者应该能够深入理解Kubernetes性能优化的核心原则，掌握Pod和节点资源调度管理的最佳实践，了解集群负载均衡与资源分配的策略，具备诊断和解决性能瓶颈的能力，并能够合理设置节点和Pod的资源限制与请求。这些知识对于构建高效、稳定的Kubernetes平台至关重要。