Serviço de Modelos

O Que Significa “Serving de Modelos (Model Serving)”

Serving de modelos (model serving) é o conjunto de práticas e sistemas de engenharia usados para executar um modelo de aprendizado de máquina (machine learning) treinado em um ambiente de produção para que ele possa gerar predições em novos dados. Ele fica a jusante do treinamento e inclui:

Carregar e executar artefatos do modelo (por exemplo, um pickle do scikit-learn, modelo XGBoost, arquivo ONNX, TorchScript, TensorFlow SavedModel)
Pré-processamento e pós-processamento (transformações de atributos, definição de limiares, calibração, formatação de saídas)
Fornecer uma interface (saída de job em lote, endpoint REST/gRPC, destino de streaming)
Operar com confiabilidade (escalabilidade, monitoramento, reversões, segurança, controle de custos)

O serving é onde o aprendizado de máquina encontra restrições do mundo real: latência, vazão (throughput), confiabilidade, privacidade e dados em evolução.

Dois padrões dominantes cobrem a maioria dos sistemas:

Serving em lote (batch serving): pontuar muitos registros de uma só vez (minutos a horas), tipicamente em uma agenda.
Serving online (online serving): pontuar por requisição (milissegundos a segundos), tipicamente por trás de uma API.

Muitos sistemas em produção são híbridos, combinando ambos.

Conceitos Centrais de Serving (Independentes de Lote vs Online)

O pipeline de inferência (inference pipeline)

Um pipeline de inferência típico tem estas etapas lógicas:

Entrada: requisição bruta ou linhas brutas (ID do usuário, transação, texto, imagem etc.)
Cálculo / recuperação de atributos:
- calcular atributos “on the fly”, ou
- buscar em um banco / cache / Armazenamentos de Atributos (Feature Stores)
Execução do modelo: executar a passagem direta (forward pass) do modelo
Pós-processamento: calibração, regras de negócio, ranqueamento, artefatos de explicabilidade, logging
Saída: resposta ao chamador ou escrita em armazenamento

Uma fonte frequente de bugs em produção é o desvio treino/serving (training/serving skew) (atributos calculados de forma diferente offline vs online). Mitigações incluem código de transformação compartilhado, armazenamentos de atributos e forte Validação de Dados (Data Validation).

Restrições: latência, vazão e custo

Latência (latency): tempo por predição (p50/p95/p99 importam). Sistemas online geralmente têm orçamentos bem apertados.
Vazão: predições por segundo ou por minuto. Sistemas em lote otimizam para vazão.
Custo: hardware (CPU/GPU), memória, I/O, rede. Veja Custo/Desempenho (Cost/Performance) e Otimização de Inferência (Inference Optimization).

Versionamento e releases

O serving precisa de vínculos consistentes e auditáveis entre:

versão do artefato do modelo
snapshot de dados de treinamento / definições de atributos
versão do código
container/runtime / ambiente de execução

Práticas e ferramentas normalmente são coordenadas via um Registro de Modelos (Model Registry) e um conjunto mais amplo de Versionamento (Dados, Código, Modelos) (Versioning (Data, Code, Models)).

Observabilidade e segurança

O serving deve produzir sinais para:

saúde do sistema (latência, erros, saturação)
saúde do modelo (deriva, mudanças na distribuição de predições, métricas de qualidade)
resultados de negócio (conversão, perdas por fraude, engajamento)

Isso normalmente se conecta a Monitoramento (Monitoring) e Avaliação em Produção (Evaluation in Production). Estratégias de rollout e rollback são cobertas por Padrões de Deploy (Deployment Patterns) e Rollbacks & Resposta a Incidentes (Rollbacks & Incident Response).

Serving em Lote

Quando o serving em lote é uma boa opção

Serving em lote é ideal quando:

as predições não precisam ser em tempo real
você pode tolerar atrasos (por exemplo, de hora em hora, toda noite)
você está pontuando muitas entidades de uma vez (milhões de usuários/itens/transações)
o modelo depende de grandes joins ou de engenharia de atributos pesada, melhor executada em computação distribuída

Casos de uso comuns:

pontuações noturnas de risco de churn para ações de CRM
recomendações pré-computadas para a homepage de amanhã
pontuação de risco de crédito para revisão de portfólio
varreduras periódicas de moderação de conteúdo

Arquitetura típica de lote

Um fluxo comum de pontuação em lote se parece com:

Agendador (scheduler) (Airflow, Argo Workflows, cron, Dagster)
Computação distribuída (distributed compute) (Spark, Ray, Beam) ou um job em uma única máquina
Junção de atributos (feature join) (tabelas do warehouse, armazenamento de atributos offline)
Inferência do modelo (model inference) (pontuação vetorizada, pontuação particionada)
Escrever saídas em:
- tabela no data warehouse (BigQuery/Snowflake/Redshift)
- armazenamento de objetos (Parquet/Delta/Iceberg)
- armazenamento chave-valor para consulta online posterior
- sistema downstream (plataforma de marketing, sistema de risco)

As saídas em lote frequentemente são consumidas por ferramentas de BI, motores de regras ou serviços online que simplesmente consultam uma pontuação pré-computada.

Exemplo prático: pontuar uma tabela diariamente

Abaixo há um exemplo Python simplificado (máquina única) que pontua clientes e grava resultados de volta em um destino tipo warehouse. Na prática, você usaria Spark/Ray para escala e I/O robusto.

import pandas as pd
import joblib

# Load daily snapshot
customers = pd.read_parquet("s3://bucket/daily/customers.parquet")

# Load model artifact
model = joblib.load("models/churn_model_v17.joblib")

# Feature prep (ideally shared / versioned)
feature_cols = ["tenure_days", "num_logins_30d", "support_tickets_90d"]
X = customers[feature_cols]

# Score
customers["churn_prob"] = model.predict_proba(X)[:, 1]

# Write batch predictions
customers[["customer_id", "churn_prob"]].to_parquet(
    "s3://bucket/predictions/churn_scores/dt=2026-01-06/part-0000.parquet"
)

Principais preocupações de produção para lote:

Idempotência (idempotency): reexecutar o job não deve corromper as saídas (escritas particionadas, overwrite por data).
Corretude ponto-no-tempo (point-in-time correctness): joins de atributos devem evitar vazamento de informação “futura”.
Reprocessamentos retroativos (backfills): você pode precisar re-pontuar o histórico após uma atualização do modelo.
Eficiência computacional: vetorizar a inferência, evitar loops Python por linha, usar formatos de modelo otimizados para lote.

Vantagens e trade-offs do serving em lote

Vantagens

Alta vazão e uso eficiente de recursos
Modelo de confiabilidade mais simples (retries, checkpointing)
Mais fácil incorporar engenharia de atributos pesada e grandes joins
Frequentemente mais fácil de reproduzir e auditar

Trade-offs

Predições desatualizadas entre execuções em lote
Mais difícil personalizar com contexto de último segundo (sessão atual, eventos mais recentes)
Depuração pode ser mais lenta (ciclo de feedback é de horas/dias)

Serving Online (Inferência em Tempo Real)

Quando o serving online é uma boa opção

Serving online é apropriado quando:

predições precisam ser feitas no caminho da requisição
a experiência do usuário ou a segurança depende de decisões de baixa latência
o modelo se beneficia de contexto fresco (comportamento da sessão, carrinho atual, transação mais recente)
predições são necessárias em horários arbitrários, não em agenda

Casos de uso comuns:

detecção de fraude no momento da autorização do pagamento
predição de clique em anúncios para leilões em tempo real
ranqueamento personalizado para feeds/busca
precificação dinâmica

Arquitetura online típica

Um serviço comum de inferência online inclui:

Camada de API (API layer): endpoint REST/gRPC (ou inferência embutida em um app)
Validação e formatação de requisições
Recuperação de atributos:
- banco de baixa latência (Redis, DynamoDB, Cassandra)
- Armazenamentos de Atributos para atributos consistentes offline/online
Runtime de inferência (inference runtime):
- CPU para modelos pequenos / modelos de árvores
- GPU para redes profundas ou alta vazão
Pós-processamento:
- limiares, restrições de negócio, calibração
- payloads opcionais de explicação
Registro em log e métricas (logging and metrics) (com controles de privacidade; veja Privacidade em Logs (Privacy in Logging))
Autoescalonamento (autoscaling) e balanceamento de carga (load balancing)
Comportamento de contingência (fallback):
- predições em cache
- modelo de referência mais simples
- modo apenas de regras

Exemplo prático: um endpoint mínimo de pontuação online

Este exemplo usa FastAPI e carrega um modelo uma vez na inicialização. Sistemas reais adicionam timeouts, controle de concorrência, busca de atributos e logging estruturado.

from fastapi import FastAPI
from pydantic import BaseModel
import joblib
import numpy as np

app = FastAPI()
model = joblib.load("models/fraud_model_v5.joblib")

class FraudRequest(BaseModel):
    amount: float
    account_age_days: int
    num_chargebacks_180d: int

@app.post("/predict")
def predict(req: FraudRequest):
    x = np.array([[req.amount, req.account_age_days, req.num_chargebacks_180d]])
    prob = float(model.predict_proba(x)[0, 1])
    decision = "block" if prob >= 0.9 else "allow"
    return {"fraud_prob": prob, "decision": decision}

Em produção, você também precisa de:

timeouts e disjuntores de circuito (circuit breakers)
IDs de requisição (request IDs) para rastreamento
isolamento de dependências (dependency isolation) (runtime do modelo vs DB de atributos vs serviços downstream)
gestão de esquema/versão (schema/version management) para payloads de requisição e resposta

Padrões de serving online: síncrono, assíncrono e streaming

Requisição-resposta síncrona (synchronous request-response)

o chamador bloqueia até a predição ser retornada
usado quando a predição é necessária para concluir a ação (checkout, ranqueamento)

Inferência online assíncrona (asynchronous online inference)

a requisição enfileira o trabalho, retorna rapidamente
a predição é entregue depois (webhook, polling, barramento de mensagens)
útil quando orçamentos de latência são maiores, mas você ainda precisa de comportamento “online” (por exemplo, segundos)

Inferência em streaming / orientada a eventos (streaming / event-driven inference)

predições computadas a partir de streams de eventos (Kafka/PubSub)
fica entre lote e online (“quase em tempo real (nearline)”)
útil para atualizar agregações e atributos continuamente

Atingindo metas de latência

Sistemas online frequentemente exigem latência p95 de ~10–300 ms (varia muito). Técnicas incluem:

Otimização do modelo: quantização (quantization), destilação (distillation), poda (pruning) (Otimização de Inferência)
Runtimes eficientes: ONNX Runtime, TensorRT, servidores especializados (Triton, etc.)
Cache de predições ou atributos repetidos (Cache e Limitação de Taxa (Caching & Rate Limiting))
Inicializações a quente (warm starts): manter processos aquecidos, evitar inicializações a frio (cold starts) em ambientes serverless
Processamento em lotes/micro-loteamento (batching/micro-batching): combinar pequenas requisições em uma única passagem direta maior na GPU

Exemplo de micro-loteamento (conceitual): coletar requisições por até X milissegundos e então executar um lote:

# Pseudocode: micro-batching loop
queue = AsyncQueue()

async def handle_request(req):
    fut = Future()
    await queue.put((req, fut))
    return await fut  # response later

async def batch_worker():
    while True:
        batch = await queue.get_many(max_items=64, max_wait_ms=5)
        X = featurize([req for req, _ in batch])
        Y = model.predict_proba(X)
        for (req, fut), y in zip(batch, Y):
            fut.set_result({"score": float(y[1])})

Isso pode aumentar dramaticamente a utilização da GPU, mas introduz pequenos atrasos de enfileiramento e complica a latência de cauda.

Vantagens e trade-offs do serving online

Vantagens

Predições frescas e sensíveis ao contexto
Habilita personalização em tempo real e controle de risco
Integração estreita com o produto (decisões acontecem “agora”)

Trade-offs

Mais complexidade operacional (escalabilidade, timeouts, falhas de dependências)
Depuração mais difícil devido ao comportamento de sistemas distribuídos
Mais sensível a problemas de dados (indisponibilidade de atributos, deriva de esquema)
Maior custo por predição se não for cuidadosamente otimizado

Padrões Híbridos (Comuns na Prática)

Muitas equipes combinam lote e online para obter o melhor dos dois:

Pré-cálculo + reordenamento online (precompute + online rerank)

Lote: computar conjuntos de candidatos (por exemplo, top 500 itens por usuário) toda noite
Online: reordenar candidatos usando contexto de sessão (modelo rápido)

Isso é comum em sistemas de recomendação (recommender systems) e ranqueamento de busca.

Pontuações em lote servidas online via consulta

Lote: computar pontuações de risco de churn/fraude periodicamente
Online: a aplicação recupera a pontuação mais recente de um armazenamento de baixa latência

Isso evita executar o modelo no caminho da requisição e reduz a complexidade online.

Atributos online + loop de re-treinamento em lote

Online: registrar atributos e resultados (com controles de privacidade)
Lote: agregar feedback, retreinar, avaliar e reimplantar Isso dá suporte a Volantes de Dados (Data Flywheels).

Preocupações Operacionais para Sistemas de Serving

Estratégias de deploy e rollout

Como mudanças no comportamento do modelo podem impactar usuários e receita, rollouts em produção frequentemente usam:

implantações sombra (shadow deployments) (recebem tráfego, mas não afetam usuários)
lançamentos canário (canary releases) (pequena porcentagem do tráfego)
testes A/B (A/B tests) (experimentos controlados)

Veja Padrões de Deploy e Avaliação em Produção.

Rollbacks e resposta a incidentes

Falhas de serving incluem:

picos de latência devido à lentidão do armazenamento de atributos downstream
falhas ao carregar o modelo após uma publicação ruim de artefato
regressões silenciosas de corretude devido a mudanças no esquema de atributos
deriva de conceito (concept drift) causando degradação de qualidade

As equipes devem ter:

gatilhos automáticos de reversão (rollback) (limiares de taxa de erro/latência)
kill switches manuais / feature flags
guias de operação (runbooks) claros e análises pós-incidente (postmortems)

Veja Rollbacks & Resposta a Incidentes.

Monitoramento: métricas de sistema e métricas de modelo

No mínimo, monitore:

Sistema: requisições por segundo (QPS), latência p50/p95/p99, taxas de erro, utilização de CPU/GPU, memória, saturação
Dados: ausência de atributos (feature missingness), mudanças de esquema, deriva de distribuição (distribution drift)
Saídas do modelo: distribuição de predições, confiança, taxa da classe principal (top-class rate)
Resultados: rótulos atrasados (delayed labels) (chargebacks, conversões), deriva de calibração (calibration drift)

Veja Monitoramento para uma cobertura mais aprofundada.

Logging e privacidade

Logs de serving são cruciais para depuração e avaliação, mas podem vazar dados sensíveis:

identificadores de usuário
texto/imagens brutos
entradas do modelo que contêm informações reguladas

Aplique minimização, mascaramento (redaction), hashing (hashing)/tokenização (tokenization) e controles de acesso. Veja Privacidade em Logs.

CI/CD para modelos

O serving de modelos é mais confiável quando deploys são condicionados a:

testes unitários (unit tests) para pré-processamento/pós-processamento
testes de carregamento do artefato do modelo
limiares de avaliação offline
testes de integração contra um armazenamento de atributos de homologação (staging)
testes de carga (load tests) para latência e vazão

Veja CI/CD para Modelos (CI/CD for Models).

SLOs para funcionalidades de IA

SLOs tradicionais focam em uptime e latência, mas funcionalidades de ML também precisam de SLOs comportamentais:

taxa máxima permitida de falso positivo para bloqueios de fraude
precisão mínima no top-K para recomendações
limites de calibração

Veja SLOs para Funcionalidades de IA (SLOs for AI Features).

Como Escolher Entre Lote e Online: Checklist de Decisão

Faça estas perguntas:

Quão frescas as predições precisam ser?
- horas/dias → lote
- milissegundos/segundos → online
A predição é necessária para concluir uma ação do usuário?
- sim → online (ou consulta de pontuações pré-computadas)
- não → lote ou assíncrono
Quão caro é o cálculo de atributos?
- joins/agregações pesados → lote ou agregações em streaming
- atributos leves ou pré-computados → online
Qual é o padrão de tráfego?
- enorme, mas previsível (pontuação diária) → lote
- irregular, dirigido pelo usuário → online com autoescalonamento e cache
Quais são os modos de falha?
- pode tolerar atrasos/retries → lote
- deve falhar com degradação graciosa em tempo real → online com fallbacks e timeouts

Notas sobre Serving de LLMs (Brevemente)

Embora este artigo foque em ML geral, modelos de linguagem grandes (LLMs, large language models) introduzem preocupações adicionais de serving — geração token a token, gerenciamento de cache KV (KV-cache management), latência de cauda longa (long-tail latency) e observabilidade de prompts/ferramentas. Para isso, veja Serving de LLMs (LLM Serving) e Observabilidade para Apps de LLM (Observability for LLM Apps). Muitos princípios permanecem os mesmos (versionamento, monitoramento, rollouts), mas o envelope de desempenho e o ferramental diferem.

Resumo

Serving em lote otimiza para vazão e simplicidade, produzindo predições em agendas para grandes conjuntos de dados.
Serving online otimiza para baixa latência e contexto fresco, viabilizando decisões em tempo real via APIs ou sistemas de streaming.
Sistemas reais frequentemente usam padrões híbridos (pré-cálculo + refinamento online) para equilibrar custo, latência e qualidade.
Serving de nível produção exige mais do que “um endpoint”: precisa de versionamento, deploys seguros, monitoramento, logging com privacidade e caminhos claros de rollback — integrando com Registro de Modelos, Monitoramento e CI/CD para Modelos.