构建面向PWA的低延迟Serverless Scikit-learn推理服务及冷启动优化实践

后端架构

文章字数: 3.3k

阅读时长: 14 分

项目初期，我们为一个内部风险评估工具构建PWA前端时，遇到了一个棘手的性能问题。这个PWA需要在用户输入一系列文本描述后，调用一个基于Scikit-learn训练的文本分类模型，实时返回风险等级。为了快速迭代和控制成本，我们选择了云服务商的Serverless方案（具体是AWS Lambda）来部署这个模型。最初的几次测试结果非常糟糕，API的响应时间在200ms到惊人的8秒之间剧烈波动。PWA离线可用、即时加载的体验优势，被这个时延抖动严重的API彻底破坏了。这就是我们必须解决的技术痛点：Serverless带来的成本和运维优势，与其固有的冷启动延迟，在延迟敏感的PWA交互场景中产生了尖锐的矛盾。

初步构想与失败的尝试

最初的架构非常直接：

graph TD
    A[PWA Client] -- HTTPS Request --> B(API Gateway);
    B -- Invokes --> C{AWS Lambda};
    C -- Loads Model from S3 --> D[S3 Bucket];
    C -- Executes Inference --> C;
    C -- Returns Result --> B;
    B -- HTTPS Response --> A;

我们的第一个Lambda函数实现也极其简单，大致逻辑如下：

# initial_lambda_handler.py
# 这是一个典型的错误示范，每次调用都加载模型

import joblib
import boto3
import json

S3_BUCKET_NAME = 'my-ml-models-bucket'
MODEL_KEY = 'models/risk_classifier_v1.joblib'

s3_client = boto3.client('s3')

def lambda_handler(event, context):
    """
    一个性能极差的实现版本。
    问题：模型在每次函数调用时都从S3下载和反序列化。
    """
    try:
        # 1. 从S3下载模型文件
        with open('/tmp/model.joblib', 'wb') as f:
            s3_client.download_fileobj(S3_BUCKET_NAME, MODEL_KEY, f)
        
        # 2. 加载模型
        model = joblib.load('/tmp/model.joblib')
        
        # 3. 解析输入
        body = json.loads(event.get('body', '{}'))
        text_input = body.get('text')
        if not text_input:
            return {'statusCode': 400, 'body': json.dumps({'error': 'Input text is required'})}
            
        # 4. 执行推理
        prediction = model.predict([text_input])
        
        return {
            'statusCode': 200,
            'body': json.dumps({'risk_level': int(prediction[0])})
        }
    except Exception as e:
        # 简陋的错误处理
        return {'statusCode': 500, 'body': json.dumps({'error': str(e)})}

这种实现的致命缺陷在于，模型加载（一个IO密集且CPU密集的操作）发生在lambda_handler函数内部。在冷启动时，Lambda需要初始化执行环境，然后每次调用这个函数，它都会完整地执行一遍从S3下载并用joblib反序列化模型的流程。这导致了我们观察到的长达数秒的延迟。

我们的第一次优化是利用Lambda执行上下文的重用机制，将模型加载移到handler函数外部。

# improved_lambda_handler_v1.py
# 利用执行上下文缓存模型

import joblib
import boto3
import json
import os
import logging

# 配置日志
logger = logging.getLogger()
logger.setLevel(logging.INFO)

# --- 全局作用域 ---
# 这些代码只在冷启动时执行一次

S3_BUCKET_NAME = os.environ.get('S3_BUCKET_NAME')
MODEL_KEY = os.environ.get('MODEL_KEY')
LOCAL_MODEL_PATH = '/tmp/risk_classifier.joblib'

def load_model():
    """从S3下载并加载模型，仅在需要时执行。"""
    if not os.path.exists(LOCAL_MODEL_PATH):
        logger.info(f"Model not found locally. Downloading from s3://{S3_BUCKET_NAME}/{MODEL_KEY}")
        try:
            s3_client = boto3.client('s3')
            s3_client.download_file(S3_BUCKET_NAME, MODEL_KEY, LOCAL_MODEL_PATH)
            logger.info("Model downloaded successfully.")
        except Exception as e:
            logger.error(f"Failed to download model: {e}")
            raise
    
    logger.info("Loading model from /tmp...")
    model = joblib.load(LOCAL_MODEL_PATH)
    logger.info("Model loaded successfully.")
    return model

# 在冷启动时加载模型并缓存
try:
    risk_classifier = load_model()
except Exception as e:
    # 如果模型加载失败，后续调用将无法服务
    logger.critical(f"CRITICAL: Failed to initialize the model. Error: {e}")
    risk_classifier = None

def lambda_handler(event, context):
    """
    优化后的handler。
    """
    # 检查模型是否已成功加载
    if risk_classifier is None:
        logger.error("Model is not available, cannot process request.")
        return {
            'statusCode': 503, # Service Unavailable
            'headers': {'Content-Type': 'application/json'},
            'body': json.dumps({'error': 'Model service is temporarily unavailable.'})
        }
        
    try:
        # 解析输入，增加健壮性
        body = json.loads(event.get('body', '{}'))
        text_input = body.get('text')
        
        if not isinstance(text_input, str) or not text_input.strip():
            logger.warning("Invalid input received.")
            return {
                'statusCode': 400,
                'headers': {'Content-Type': 'application/json'},
                'body': json.dumps({'error': 'Input text must be a non-empty string.'})
            }
            
        # 执行推理
        # Scikit-learn的predict方法通常需要一个可迭代对象
        prediction = risk_classifier.predict([text_input])
        
        # 将numpy类型转换为原生python类型以便JSON序列化
        risk_level = int(prediction[0])
        
        logger.info(f"Successfully processed request. Risk level: {risk_level}")
        return {
            'statusCode': 200,
            'headers': {'Content-Type': 'application/json'},
            'body': json.dumps({'risk_level': risk_level})
        }
    except json.JSONDecodeError:
        logger.error("Failed to decode JSON body.")
        return {
            'statusCode': 400,
            'headers': {'Content-Type': 'application/json'},
            'body': json.dumps({'error': 'Invalid JSON format in request body.'})
        }
    except Exception as e:
        logger.error(f"An unexpected error occurred: {e}", exc_info=True)
        return {
            'statusCode': 500,
            'headers': {'Content-Type': 'application/json'},
            'body': json.dumps({'error': 'Internal server error.'})
        }

这次改进后，热调用（Warm Invocation）的延迟稳定在了150ms左右，性能可接受。然而，冷启动问题依然存在。只要函数实例一段时间未被调用而被回收，下一次请求就会触发冷启动，延迟依然会飙升到5-6秒。对于PWA的交互体验来说，这种随机出现的“卡顿”是无法容忍的。

技术选型决策：依赖打包、基础设施即代码与预置并发

我们意识到，问题根源在于冷启动的“初始化”阶段耗时过长。这个阶段包括：

下载函数代码。
启动执行环境（例如，Python运行时）。
执行我们的全局初始化代码（下载并加载模型）。

Scikit-learn及其依赖（numpy, scipy）打包后体积不小，这加剧了第一步的耗时。而模型本身（包含TF-IDF向量化器和分类器）的反序列化也相当耗时。

为了系统性地解决这个问题，我们做了几个关键的技术决策：

使用Lambda层（Layers）管理依赖: 将scikit-learn, numpy等通用但体积庞大的库打包成一个Lambda层。这样做的好处是，函数代码包本身会变得很小，加快了代码下载速度。同时，多个Lambda函数可以共享同一个层，便于管理。
使用基础设施即代码（IaC）管理部署: 我们放弃了在AWS控制台手动配置的方式，转而使用AWS SAM (Serverless Application Model)。这让我们能够以代码形式定义函数、API网关、IAM角色和关键的性能配置，保证了环境的一致性和可重复部署性。
启用预置并发（Provisioned Concurrency）: 这是解决冷启动问题的“银弹”。通过配置预置并发，我们告诉AWS预先初始化并保持指定数量的函数实例处于“热”状态。这些实例已经完成了所有初始化代码，可以立即响应调用，从而彻底消除了用户的冷启动延迟。当然，这是用金钱换时间，成本控制是需要考虑的。

核心实现：从打包到PWA的弹性UI

1. 创建Lambda Layer和部署包

首先，我们本地准备依赖：

# 创建一个目录来构建layer
mkdir -p scikit-learn-layer/python
pip install scikit-learn pandas -t scikit-learn-layer/python

注意，依赖需要安装到python子目录下，这是Lambda Layer的约定。然后我们将这个目录打包：
zip -r scikit-learn-layer.zip scikit-learn-layer

我们的函数代码现在非常纯净，只包含业务逻辑app.py（即上面的improved_lambda_handler_v1.py）。

2. 使用AWS SAM定义基础设施

这是整个方案的核心。template.yaml文件定义了所有资源和它们的配置。

# template.yaml
AWSTemplateFormatVersion: '2010-09-09'
Transform: AWS::Serverless-2016-10-31
Description: >
  A serverless application for real-time risk classification.

Globals:
  Function:
    Timeout: 15
    MemorySize: 512 # 根据模型大小和依赖调整
    Runtime: python3.9

Resources:
  # Lambda Layer for Scikit-learn and its dependencies
  ScikitLearnLayer:
    Type: AWS::Serverless::LayerVersion
    Properties:
      LayerName: scikit-learn-v1-layer
      Description: Layer with Scikit-learn, Numpy, Scipy, Pandas
      ContentUri: scikit-learn-layer.zip # 本地zip包路径
      CompatibleRuntimes:
        - python3.9
      RetentionPolicy: Retain

  # The Lambda Function for inference
  RiskClassifierFunction:
    Type: AWS::Serverless::Function
    Properties:
      FunctionName: risk-classifier-api
      CodeUri: src/ # 存放app.py的目录
      Handler: app.lambda_handler
      Layers:
        - !Ref ScikitLearnLayer
      Policies:
        # 赋予从S3读取模型的权限
        - S3ReadPolicy:
            BucketName: !Ref ModelBucketName
      Environment:
        Variables:
          S3_BUCKET_NAME: !Ref ModelBucketName
          MODEL_KEY: !Ref ModelKey
          LOG_LEVEL: INFO
      Events:
        ApiEvent:
          Type: Api
          Properties:
            Path: /predict
            Method: post
      # --- 关键的性能配置 ---
      ProvisionedConcurrencyConfig:
        ProvisionedConcurrentExecutions: 2 # 保持2个实例永远是热的

Parameters:
  ModelBucketName:
    Type: String
    Description: S3 bucket name where the model is stored.
    Default: 'my-ml-models-bucket'
  ModelKey:
    Type: String
    Description: The key for the model object in the S3 bucket.
    Default: 'models/risk_classifier_v1.joblib'

在这个template.yaml中，ProvisionedConcurrencyConfig是关键。我们设置了ProvisionedConcurrentExecutions: 2，意味着AWS会确保始终有2个函数实例完成了初始化并待命。任何指向这个函数别名（SAM会自动创建）的流量都会首先被路由到这些热实例上。只有当并发请求超过2时，新的请求才可能触发标准的冷启动。

部署流程如下:

sam build
sam deploy --guided

3. PWA端的弹性处理

尽管后端通过预置并发消除了大部分冷启动，但在真实项目中，我们不能100%依赖它。例如，突发流量超出预置数量，或者配置失误，都可能导致用户再次遇到延迟。因此，一个健壮的PWA前端必须有弹性设计。

我们在PWA的Service Worker中拦截了对推理API的fetch请求。

// service-worker.js

// ... 其他Service Worker逻辑 ...

self.addEventListener('fetch', event => {
  const requestUrl = new URL(event.request.url);

  // 只对我们的API端点应用特殊策略
  if (requestUrl.pathname === '/api/predict') {
    event.respondWith(handleApiRequest(event.request));
  } else {
    // 对其他请求使用标准缓存策略
    event.respondWith(
      caches.match(event.request).then(response => {
        return response || fetch(event.request);
      })
    );
  }
});

async function handleApiRequest(request) {
  // 注意：对于POST请求，缓存策略需要更复杂。
  // 这里为了演示，我们假设总是从网络获取，但可以加入超时和重试机制。
  try {
    const response = await fetch(request);
    // 可以在这里检查响应时间，如果过长，可以触发一个客户端事件
    // 以便UI可以显示 "服务响应较慢，请稍候" 而不是一个冻结的加载指示器
    return response;
  } catch (error) {
    // 网络错误，返回一个标准的错误响应
    return new Response(JSON.stringify({ error: 'Network error or server is down' }), {
      status: 503,
      headers: { 'Content-Type': 'application/json' }
    });
  }
}

更重要的是在UI层的处理。当用户点击“分析”按钮时，我们不只是显示一个无限旋转的加载圈。

// app.js - PWA的前端逻辑

async function onAnalyzeClick() {
  const analyzeButton = document.getElementById('analyze-btn');
  const resultDiv = document.getElementById('result');
  const textInput = document.getElementById('text-input').value;

  // 1. 立即禁用按钮，并显示一个友好的加载状态
  analyzeButton.disabled = true;
  resultDiv.innerHTML = '<div class="skeleton-loader"></div>'; // 显示骨架屏

  // 2. 设置一个超时计时器
  const timeoutPromise = new Promise((_, reject) => 
    setTimeout(() => reject(new Error('Request timed out')), 8000) // 8秒超时
  );

  try {
    // 3. 并发地执行fetch和超时
    const response = await Promise.race([
      fetch('/api/predict', {
        method: 'POST',
        headers: { 'Content-Type': 'application/json' },
        body: JSON.stringify({ text: textInput }),
      }),
      timeoutPromise
    ]);

    if (!response.ok) {
      throw new Error(`API Error: ${response.statusText}`);
    }

    const data = await response.json();
    displayResult(data.risk_level);

  } catch (error) {
    // 4. 处理错误，包括超时
    console.error('Analysis failed:', error);
    resultDiv.innerHTML = `<div class="error-message">分析失败，请检查网络或稍后重试。</div>`;
  } finally {
    // 5. 无论成功失败，都恢复UI状态
    analyzeButton.disabled = false;
  }
}

function displayResult(level) {
  // ... 显示结果的逻辑 ...
}

这段客户端代码体现了弹性原则：

即时反馈: 点击后立刻显示骨架屏，而不是让UI无响应。
超时控制: 使用Promise.race设置了一个8秒的硬超时，防止后端因未知问题无限期挂起请求，导致前端永久等待。
明确的错误状态: 向用户清晰地展示错误信息，而不是静默失败。

最终成果与架构图

部署了包含预置并发的SAM应用后，我们再次进行压力测试。结果显示，API的p99响应时间稳定在了250ms以下，完全满足了PWA即时交互的需求。冷启动问题被有效解决。

最终的架构如下：

graph TD
    subgraph PWA Client
        A[User Interface] -- Triggers Fetch --> B(Service Worker);
        B -- Handles Timeout & UI State --> A;
        B -- fetch() --> C[API Gateway Endpoint];
    end

    subgraph AWS Cloud
        C -- HTTPS --> D{API Gateway};
        D -- Invokes Alias --> E[Lambda Function Alias];
        E -- Routes to --> F((Provisioned Instance 1));
        E -- Routes to --> G((Provisioned Instance 2));
        E -- On high traffic --> H((On-demand Cold Start Instance));
        
        subgraph Lambda Execution Environment
            F -- Already Initialized --> I{Handler Code};
            G -- Already Initialized --> J{Handler Code};
            H -- Initializes on First Call --> K{Handler Code};
        end
        
        I & J & K -- Reads Model --> L[Cached Model in /tmp];
        
        subgraph Cold Start Initialization
            M(Init Code) -- Downloads from S3 --> N[S3 Model Bucket];
            N -- .joblib file --> M;
            M -- Loads via joblib --> L;
        end
        
        style F fill:#9f9,stroke:#333,stroke-width:2px
        style G fill:#9f9,stroke:#333,stroke-width:2px
        style H fill:#f99,stroke:#333,stroke-width:2px
    end

这个方案的局限性在于成本。预置并发是按小时计费的，无论是否有流量。因此，它不适用于流量极低或完全不可预测的应用。在我们的场景中，这是一个内部工具，工作时间内有稳定可预期的并发用户数，因此这是一个合理的权衡。对于需要应对极端流量峰值的公共服务，可能需要结合预置并发和自动扩缩容策略（例如基于请求队列长度的自定义扩缩容），或者考虑使用AWS Fargate这类轻量级容器方案，它在冷启动性能和成本之间提供了另一种平衡。未来的优化路径可能包括模型量化以减小模型体积，进一步缩短初始化时间，或者探索专门为ML推理优化的Serverless平台。

Serverless Scikit-learn PWA 云服务商 AWS Lambda 冷启动优化

构建从Puppet管理的Spark集群到Azure Functions的SAML身份传播数据管道

2023-10-27 架构与设计

GraphQL Client Puppet SAML Apache Spark Azure Functions

基于 AWS Lambda 与 Flask 构建轻量级可编程 API WAF 的实现

2023-10-27 云原生

API 设计 Serverless AWS Lambda WAF Flask