多租户与权限管理: 项目隔离与资源配额

老马啸西风2025/8/30大约 10 分钟

在企业级CI/CD平台中，多租户架构和精细化的权限管理是确保平台安全、稳定运行的关键要素。随着组织规模的扩大和团队数量的增加，如何有效隔离不同团队的资源、确保数据安全以及实施精细化的访问控制成为平台设计的重要挑战。本文将深入探讨多租户架构设计、基于角色的访问控制（RBAC）实现以及资源配额管理等关键内容。

多租户架构设计

多租户架构允许多个团队或项目在同一平台实例上独立运行，同时确保彼此之间的隔离性和安全性。

1. 多租户模型选择

根据业务需求和技术架构，可以选择不同的多租户模型：

共享数据库，共享应用服务器（Shared Everything）

所有租户共享同一数据库实例和应用服务器：

优势：资源利用率最高，管理成本最低
劣势：隔离性最差，存在数据泄露风险
适用场景：小型组织或对隔离性要求不高的场景

共享应用服务器，独立数据库（Shared Application, Separate Database）

所有租户共享应用服务器，但使用独立的数据库实例：

优势：数据隔离性好，实现相对简单
劣势：应用层面仍存在潜在干扰
适用场景：中小型企业，需要一定数据隔离但预算有限

独立应用服务器，独立数据库（Separate Everything）

每个租户拥有独立的应用服务器和数据库实例：

优势：隔离性最好，安全性最高
劣势：资源利用率较低，管理成本最高
适用场景：大型企业，对安全性和隔离性要求极高

2. 租户隔离策略

实现有效的租户隔离需要从多个维度进行考虑。

数据隔离

确保不同租户的数据相互隔离：

# 数据库层面的租户隔离示例
tenant_isolation:
  database:
    strategy: "separate_schema"  # separate_schema, separate_database, shared_schema_with_prefix
    connection_pool:
      max_connections_per_tenant: 20
      min_connections_per_tenant: 5
  cache:
    strategy: "namespaced"  # namespaced, separate_instances
    namespace_prefix: "tenant_"

网络隔离

实现租户间的网络隔离：

# Kubernetes中的网络策略示例
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: tenant-isolation-policy
spec:
  podSelector:
    matchLabels:
      tenant: "{{ .tenant_id }}"
  policyTypes:
  - Ingress
  - Egress
  ingress:
  - from:
    - podSelector:
        matchLabels:
          tenant: "{{ .tenant_id }}"
  egress:
  - to:
    - podSelector:
        matchLabels:
          tenant: "{{ .tenant_id }}"

计算资源隔离

确保计算资源的隔离和公平分配：

# Kubernetes资源配额示例
apiVersion: v1
kind: ResourceQuota
metadata:
  name: tenant-resource-quota
  namespace: "{{ .tenant_namespace }}"
spec:
  hard:
    requests.cpu: "4"
    requests.memory: "8Gi"
    limits.cpu: "8"
    limits.memory: "16Gi"
    persistentvolumeclaims: "10"
    services.loadbalancers: "2"

3. 租户生命周期管理

建立完善的租户生命周期管理机制：

租户创建

自动化租户创建流程：

#!/usr/bin/env python3
"""
租户创建工具
自动化创建新租户环境
"""

import yaml
import subprocess
import logging
from typing import Dict, Any

class TenantManager:
    def __init__(self, config: Dict[str, Any]):
        self.config = config
        self.logger = logging.getLogger(__name__)
    
    def create_tenant(self, tenant_id: str, tenant_name: str, admin_email: str) -> bool:
        """创建新租户"""
        try:
            # 1. 创建命名空间
            self._create_namespace(tenant_id)
            
            # 2. 创建资源配额
            self._create_resource_quota(tenant_id)
            
            # 3. 创建网络策略
            self._create_network_policy(tenant_id)
            
            # 4. 创建默认角色和用户
            self._create_default_roles(tenant_id)
            
            # 5. 初始化默认配置
            self._initialize_tenant_config(tenant_id)
            
            # 6. 发送欢迎邮件
            self._send_welcome_email(admin_email, tenant_name)
            
            self.logger.info(f"Tenant {tenant_id} created successfully")
            return True
            
        except Exception as e:
            self.logger.error(f"Failed to create tenant {tenant_id}: {e}")
            return False
    
    def _create_namespace(self, tenant_id: str):
        """创建Kubernetes命名空间"""
        namespace_yaml = f"""
apiVersion: v1
kind: Namespace
metadata:
  name: {tenant_id}
  labels:
    tenant: {tenant_id}
    managed-by: ci-cd-platform
"""
        self._apply_k8s_resource(namespace_yaml)
    
    def _create_resource_quota(self, tenant_id: str):
        """创建资源配额"""
        quota_yaml = f"""
apiVersion: v1
kind: ResourceQuota
metadata:
  name: default-quota
  namespace: {tenant_id}
spec:
  hard:
    requests.cpu: "{self.config['default_cpu_request']}"
    requests.memory: "{self.config['default_memory_request']}"
    limits.cpu: "{self.config['default_cpu_limit']}"
    limits.memory: "{self.config['default_memory_limit']}"
    persistentvolumeclaims: "{self.config['default_pvc_limit']}"
"""
        self._apply_k8s_resource(quota_yaml)
    
    def _apply_k8s_resource(self, resource_yaml: str):
        """应用Kubernetes资源"""
        with open('/tmp/resource.yaml', 'w') as f:
            f.write(resource_yaml)
        
        result = subprocess.run(
            ['kubectl', 'apply', '-f', '/tmp/resource.yaml'],
            capture_output=True, text=True
        )
        
        if result.returncode != 0:
            raise Exception(f"Failed to apply resource: {result.stderr}")

租户配置

提供灵活的租户配置选项：

# 租户配置模板
tenant_config:
  general:
    name: "{{ .tenant_name }}"
    id: "{{ .tenant_id }}"
    contact_email: "{{ .admin_email }}"
    created_at: "{{ .creation_timestamp }}"
  
  resource_limits:
    cpu:
      request: "2"
      limit: "4"
    memory:
      request: "4Gi"
      limit: "8Gi"
    storage:
      limit: "100Gi"
  
  security:
    network_policy: true
    pod_security_policy: true
    image_scanning: true
    vulnerability_monitoring: true
  
  integrations:
    notification_channels:
      - type: "email"
        enabled: true
      - type: "slack"
        enabled: false
    monitoring:
      prometheus_integration: true
      alerting_rules: "default"

基于角色的访问控制（RBAC）

RBAC是实现精细化权限管理的核心机制，通过角色和权限的映射关系控制用户访问。

1. 角色体系设计

设计合理的角色体系是RBAC成功的基础：

系统级角色

系统管理员角色具有平台管理权限：

超级管理员：拥有平台所有权限
平台管理员：负责平台运维和配置
安全管理员：负责安全管理相关配置
审计员：负责审计和合规检查

租户级角色

租户内部分配不同角色：

租户管理员：拥有租户内所有权限
项目管理员：负责特定项目的管理
开发者：拥有代码提交和流水线执行权限
测试人员：拥有测试相关权限
运维人员：拥有部署和运维权限
只读用户：仅能查看信息，不能进行修改

角色权限映射

定义清晰的角色权限映射关系：

# RBAC角色定义示例
roles:
  tenant_admin:
    description: "租户管理员"
    permissions:
      - "pipeline.create"
      - "pipeline.edit"
      - "pipeline.delete"
      - "user.manage"
      - "config.edit"
      - "resource.view"
      - "resource.manage"
  
  developer:
    description: "开发者"
    permissions:
      - "pipeline.execute"
      - "pipeline.view"
      - "artifact.view"
      - "log.view"
  
  tester:
    description: "测试人员"
    permissions:
      - "pipeline.execute"
      - "pipeline.view"
      - "test.result.view"
      - "log.view"
  
  auditor:
    description: "审计员"
    permissions:
      - "audit.log.view"
      - "pipeline.view"
      - "user.view"
      - "config.view"

2. 权限粒度控制

实现细粒度的权限控制确保安全性和灵活性：

资源级别权限

控制对具体资源的访问权限：

# 资源级别权限示例
permissions:
  pipeline:
    create: true
    view: ["my-project/*", "shared/*"]
    edit: ["my-project/*"]
    delete: ["my-project/*"]
    execute: ["my-project/*", "shared/ci-pipeline"]
  
  artifact:
    upload: true
    download: true
    delete: ["my-project/*"]
    promote: ["my-project/*"]

操作级别权限

控制具体操作的执行权限：

#!/usr/bin/env python3
"""
权限检查工具
实现细粒度权限控制
"""

from typing import Dict, List, Set
import logging

class PermissionChecker:
    def __init__(self, user_roles: List[str], tenant_config: Dict):
        self.user_roles = user_roles
        self.tenant_config = tenant_config
        self.logger = logging.getLogger(__name__)
    
    def check_permission(self, permission: str, resource: str = None) -> bool:
        """检查用户是否具有指定权限"""
        # 获取用户所有角色的权限
        user_permissions = self._get_user_permissions()
        
        # 检查基础权限
        if permission not in user_permissions:
            return False
        
        # 如果指定了资源，检查资源级别权限
        if resource:
            return self._check_resource_permission(permission, resource, user_permissions)
        
        return True
    
    def _get_user_permissions(self) -> Dict[str, any]:
        """获取用户所有权限"""
        permissions = {}
        
        for role in self.user_roles:
            role_permissions = self.tenant_config.get('roles', {}).get(role, {}).get('permissions', {})
            permissions.update(role_permissions)
        
        return permissions
    
    def _check_resource_permission(self, permission: str, resource: str, user_permissions: Dict) -> bool:
        """检查资源级别权限"""
        permission_config = user_permissions.get(permission)
        
        # 如果权限配置是布尔值，直接返回
        if isinstance(permission_config, bool):
            return permission_config
        
        # 如果权限配置是列表，检查资源是否在允许列表中
        if isinstance(permission_config, list):
            for allowed_resource in permission_config:
                if self._match_resource_pattern(resource, allowed_resource):
                    return True
            return False
        
        # 如果权限配置是字典，检查详细规则
        if isinstance(permission_config, dict):
            allowed_resources = permission_config.get('allow', [])
            denied_resources = permission_config.get('deny', [])
            
            # 先检查是否被明确拒绝
            for denied_resource in denied_resources:
                if self._match_resource_pattern(resource, denied_resource):
                    return False
            
            # 再检查是否被允许
            for allowed_resource in allowed_resources:
                if self._match_resource_pattern(resource, allowed_resource):
                    return True
            
            return False
        
        return False
    
    def _match_resource_pattern(self, resource: str, pattern: str) -> bool:
        """匹配资源模式"""
        # 简单的通配符匹配实现
        if pattern.endswith('*'):
            prefix = pattern[:-1]
            return resource.startswith(prefix)
        else:
            return resource == pattern

3. 权限审计

建立完善的权限审计机制确保合规性和安全性：

访问日志记录

记录所有权限相关的访问日志：

#!/usr/bin/env python3
"""
权限审计工具
记录和分析权限访问日志
"""

import json
import logging
from datetime import datetime
from typing import Dict, Any

class PermissionAuditor:
    def __init__(self, audit_log_path: str):
        self.audit_log_path = audit_log_path
        self.logger = logging.getLogger(__name__)
    
    def log_access_attempt(self, user_id: str, permission: str, resource: str, 
                          granted: bool, details: Dict[str, Any] = None):
        """记录访问尝试"""
        audit_entry = {
            'timestamp': datetime.utcnow().isoformat() + 'Z',
            'user_id': user_id,
            'permission': permission,
            'resource': resource,
            'granted': granted,
            'details': details or {}
        }
        
        # 写入审计日志
        with open(self.audit_log_path, 'a') as f:
            f.write(json.dumps(audit_entry) + '\n')
        
        # 如果拒绝了敏感权限，发送告警
        if not granted and self._is_sensitive_permission(permission):
            self._send_alert(user_id, permission, resource)
    
    def _is_sensitive_permission(self, permission: str) -> bool:
        """判断是否为敏感权限"""
        sensitive_permissions = [
            'user.manage',
            'role.assign',
            'config.edit',
            'pipeline.delete',
            'artifact.delete'
        ]
        return permission in sensitive_permissions
    
    def _send_alert(self, user_id: str, permission: str, resource: str):
        """发送安全告警"""
        alert_message = f"Permission denied: User {user_id} attempted to access {permission} on {resource}"
        self.logger.warning(alert_message)
        
        # 这里可以集成具体的告警系统
        # 例如发送邮件、Slack通知等

资源配额管理

资源配额管理确保平台资源的公平分配和有效利用。

1. 配额类型定义

定义不同类型的资源配额：

计算资源配额

控制CPU和内存资源使用：

# 计算资源配额示例
compute_quota:
  cpu:
    request_limit: "16"      # 总请求CPU核心数限制
    limit_limit: "32"        # 总限制CPU核心数限制
    per_user_limit: "4"      # 每用户CPU核心数限制
  
  memory:
    request_limit: "64Gi"    # 总请求内存限制
    limit_limit: "128Gi"     # 总限制内存限制
    per_user_limit: "8Gi"    # 每用户内存限制

存储资源配额

控制存储资源使用：

# 存储资源配额示例
storage_quota:
  persistent_volumes:
    count_limit: 50          # PV数量限制
    total_capacity: "2Ti"    # 总存储容量限制
    per_user_capacity: "100Gi" # 每用户存储容量限制
  
  object_storage:
    bucket_count: 20         # 对象存储桶数量限制
    total_size: "1Ti"        # 对象存储总大小限制

平台资源配额

控制平台特定资源使用：

# 平台资源配额示例
platform_quota:
  pipelines:
    count_limit: 100         # 流水线数量限制
    concurrent_executions: 20 # 并发执行数限制
  
  artifacts:
    count_limit: 10000       # 制品数量限制
    total_size: "500Gi"      # 制品总大小限制
  
  users:
    count_limit: 100         # 用户数量限制

2. 配额监控与告警

建立配额监控和告警机制：

配额使用监控

实时监控配额使用情况：

#!/usr/bin/env python3
"""
资源配额监控工具
监控和告警资源配额使用情况
"""

import psutil
import subprocess
import json
import logging
from typing import Dict, Any
from datetime import datetime, timedelta

class QuotaMonitor:
    def __init__(self, config: Dict[str, Any]):
        self.config = config
        self.logger = logging.getLogger(__name__)
    
    def check_all_quotas(self) -> Dict[str, Dict[str, Any]]:
        """检查所有配额使用情况"""
        quota_status = {
            'compute': self._check_compute_quota(),
            'storage': self._check_storage_quota(),
            'platform': self._check_platform_quota()
        }
        
        # 检查是否需要发送告警
        self._check_quota_alerts(quota_status)
        
        return quota_status
    
    def _check_compute_quota(self) -> Dict[str, Any]:
        """检查计算资源配额"""
        # 获取系统资源使用情况
        cpu_percent = psutil.cpu_percent(interval=1)
        memory = psutil.virtual_memory()
        
        # 获取Kubernetes资源使用情况
        k8s_usage = self._get_k8s_resource_usage()
        
        return {
            'cpu_usage_percent': cpu_percent,
            'memory_usage_percent': memory.percent,
            'k8s_cpu_requests': k8s_usage.get('cpu_requests', 0),
            'k8s_cpu_limits': k8s_usage.get('cpu_limits', 0),
            'k8s_memory_requests': k8s_usage.get('memory_requests', 0),
            'k8s_memory_limits': k8s_usage.get('memory_limits', 0),
            'quota_limits': self.config.get('compute_quota', {})
        }
    
    def _check_storage_quota(self) -> Dict[str, Any]:
        """检查存储资源配额"""
        # 获取磁盘使用情况
        disk_usage = psutil.disk_usage('/')
        
        # 获取Kubernetes PVC使用情况
        pvc_usage = self._get_pvc_usage()
        
        return {
            'disk_usage_percent': (disk_usage.used / disk_usage.total) * 100,
            'pvc_count': pvc_usage.get('count', 0),
            'pvc_total_size': pvc_usage.get('total_size', 0),
            'quota_limits': self.config.get('storage_quota', {})
        }
    
    def _check_platform_quota(self) -> Dict[str, Any]:
        """检查平台资源配额"""
        # 获取平台资源使用情况
        platform_usage = self._get_platform_usage()
        
        return {
            'pipeline_count': platform_usage.get('pipeline_count', 0),
            'concurrent_executions': platform_usage.get('concurrent_executions', 0),
            'artifact_count': platform_usage.get('artifact_count', 0),
            'artifact_total_size': platform_usage.get('artifact_total_size', 0),
            'user_count': platform_usage.get('user_count', 0),
            'quota_limits': self.config.get('platform_quota', {})
        }
    
    def _get_k8s_resource_usage(self) -> Dict[str, Any]:
        """获取Kubernetes资源使用情况"""
        try:
            # 获取所有命名空间的资源配额
            result = subprocess.run([
                'kubectl', 'get', 'resourcequota', 
                '-A', '-o', 'json'
            ], capture_output=True, text=True)
            
            if result.returncode != 0:
                return {}
            
            data = json.loads(result.stdout)
            usage = {
                'cpu_requests': 0,
                'cpu_limits': 0,
                'memory_requests': 0,
                'memory_limits': 0
            }
            
            # 统计所有资源配额
            for item in data.get('items', []):
                status = item.get('status', {}).get('used', {})
                usage['cpu_requests'] += self._parse_resource_quantity(
                    status.get('requests.cpu', '0')
                )
                usage['cpu_limits'] += self._parse_resource_quantity(
                    status.get('limits.cpu', '0')
                )
                usage['memory_requests'] += self._parse_resource_quantity(
                    status.get('requests.memory', '0')
                )
                usage['memory_limits'] += self._parse_resource_quantity(
                    status.get('limits.memory', '0')
                )
            
            return usage
        except Exception as e:
            self.logger.error(f"Failed to get Kubernetes resource usage: {e}")
            return {}
    
    def _parse_resource_quantity(self, quantity: str) -> float:
        """解析Kubernetes资源数量"""
        if not quantity:
            return 0
        
        # 简单的资源数量解析
        if quantity.endswith('m'):  # 毫核
            return float(quantity[:-1]) / 1000
        elif quantity.endswith('Ki'):  # KiB
            return float(quantity[:-2]) * 1024
        elif quantity.endswith('Mi'):  # MiB
            return float(quantity[:-2]) * 1024 * 1024
        elif quantity.endswith('Gi'):  # GiB
            return float(quantity[:-2]) * 1024 * 1024 * 1024
        else:
            return float(quantity)
    
    def _check_quota_alerts(self, quota_status: Dict[str, Dict[str, Any]]):
        """检查配额告警"""
        for category, status in quota_status.items():
            quota_limits = status.get('quota_limits', {})
            
            # 检查各项配额使用率
            for limit_name, limit_value in quota_limits.items():
                usage_percent = self._calculate_usage_percent(
                    status, limit_name, limit_value
                )
                
                if usage_percent > 90:  # 使用率超过90%发送告警
                    self._send_quota_alert(
                        category, limit_name, usage_percent, limit_value
                    )
    
    def _calculate_usage_percent(self, status: Dict[str, Any], 
                               limit_name: str, limit_value: Any) -> float:
        """计算使用率"""
        # 这里需要根据具体的配额类型计算使用率
        # 简化实现，实际应用中需要更复杂的逻辑
        return 0.0
    
    def _send_quota_alert(self, category: str, limit_name: str, 
                         usage_percent: float, limit_value: Any):
        """发送配额告警"""
        alert_message = (
            f"Resource quota alert: {category}.{limit_name} "
            f"is {usage_percent:.1f}% full (limit: {limit_value})"
        )
        self.logger.warning(alert_message)
        
        # 这里可以集成具体的告警系统

通过建立完善的多租户架构、精细化的权限管理和有效的资源配额机制，企业级CI/CD平台能够确保不同团队之间的安全隔离，实现资源的公平分配，并满足合规性要求。关键是要根据组织的具体需求选择合适的多租户模型，设计合理的角色体系，并建立持续的监控和告警机制。