Quantificação de Incerteza

Visão geral

Quantificação de Incerteza (Uncertainty Quantification, UQ) é o conjunto de princípios e métodos usados para representar, estimar e propagar a incerteza em previsões de modelos de aprendizado de máquina (machine learning) e simulações científicas. Em vez de produzir apenas um único “melhor palpite”, a quantificação de incerteza busca responder:

  • Quão incerta é a previsão para esta entrada específica?
  • Que faixa de resultados é plausível, e com quais probabilidades?
  • De onde vem a incerteza (ruído nos dados vs ignorância do modelo)?
  • Como devemos agir quando os resultados são arriscados?

A quantificação de incerteza é importante sempre que decisões são custosas, críticas para a segurança ou limitadas por recursos: triagem médica, sistemas autônomos, previsão do tempo e do clima, descoberta de fármacos, finanças, planejamento de cadeia de suprimentos e inferência científica. Ela está intimamente ligada à Calibração (Calibration) (as probabilidades previstas correspondem à realidade?) e a práticas robustas de avaliação como Validação e validação cruzada (Validation & Cross-Validation) e Análise de Erros (Fatiamento) (Error Analysis (Slicing)).

Tipos de incerteza: aleatória vs epistêmica

Uma ideia fundamental é a decomposição da incerteza:

Incerteza aleatória (incerteza dos dados)

A incerteza aleatória surge da aleatoriedade inerente ou do ruído no processo gerador de dados:

  • Ruído de sensores (ex.: medições de radar)
  • Resultados estocásticos (ex.: um paciente responderá ao tratamento?)
  • Ambiguidade não resolvível com mais dados para as mesmas características (ex.: duas pessoas com covariáveis idênticas podem ter desfechos diferentes)

A incerteza aleatória pode ser:

  • Homocedástica (homoscedastic): nível de ruído constante entre entradas
  • Heterocedástica (heteroscedastic): o ruído varia com a entrada (ex.: maior incerteza à noite para modelos de visão)

Incerteza epistêmica (incerteza do modelo)

A incerteza epistêmica vem de conhecimento limitado sobre o mapeamento verdadeiro de entradas para saídas:

  • Dados de treino insuficientes em uma região do espaço de características (feature space)
  • Especificação incorreta do modelo (forma funcional errada)
  • Mudança de distribuição (distribution shift) (o teste difere do treino)

A incerteza epistêmica muitas vezes pode ser reduzida coletando mais dados relevantes ou melhorando a classe de modelos.

Na prática, a incerteza preditiva total normalmente mistura as duas.

Como a incerteza é representada

A quantificação de incerteza não é um número; geralmente é uma distribuição ou um conjunto.

Distribuições preditivas

A representação padrão-ouro é a distribuição preditiva (predictive distribution):

  • Bayesiana (Bayesian): (p(y\mid x, D) = \int p(y\mid x,\theta), p(\theta\mid D), d\theta)
  • Comitê (ensemble) / aproximada: aproxima a integral via múltiplos modelos/amostras

A partir de uma distribuição preditiva, você pode calcular:

  • Previsão de média/mediana
  • Quantis (quantiles) (ex.: percentil 5–95)
  • Probabilidades de cauda (tail probabilities) (risco de exceder um limiar)
  • Entropia (entropy) (incerteza em classificação)

Intervalos e conjuntos

Quando uma distribuição completa é desnecessária, você frequentemente usa:

  • Intervalo de predição (prediction interval) (regressão): ex.: “95% dos resultados futuros devem cair em [L, U]”
  • Intervalo credível (credible interval) (bayesiano): “a probabilidade a posteriori de que o parâmetro/valor esteja em [L, U] é 95%”
  • Intervalo de confiança (confidence interval) (frequentista): “em amostragens repetidas, 95% desses intervalos contêm o parâmetro verdadeiro”
  • Conjunto de predição (prediction set) (classificação): um subconjunto de rótulos com garantia de conter a classe verdadeira com um nível-alvo de cobertura (coverage)

Probabilidades pontuais (classificação)

Para modelos de classificação, a incerteza frequentemente é representada como:

  • Um vetor de probabilidades sobre classes (p(y=k\mid x))
  • Medidas derivadas como:
    • Entropia preditiva (predictive entropy): (H[p(y\mid x)])
    • Margem (margin) entre as duas maiores probabilidades
    • Informação mútua (mutual information) (para incerteza epistêmica; ver abaixo)

Importante: alta confiança não implica correção, a menos que o modelo seja bem calibrado (ver Calibração).

Intervalos de confiança vs intervalos credíveis vs intervalos de predição

Esses conceitos são frequentemente confundidos:

  • Intervalo de confiança (CI): sobre um parâmetro desconhecido sob amostragem repetida. Um CI de 95% é um procedimento que contém o parâmetro verdadeiro 95% do tempo em conjuntos de dados hipotéticos repetidos.
  • Intervalo credível (bayesiano): diretamente probabilístico sobre um valor dado os dados observados. Um intervalo credível de 95% significa que a massa a posteriori nesse intervalo é 95%.
  • Intervalo de predição: sobre uma observação futura (y) dado (x). Mesmo que os parâmetros fossem perfeitamente conhecidos, a aleatoriedade em (y) cria incerteza residual.

Em aplicações de aprendizado de máquina, praticantes frequentemente querem intervalos de predição (o que vai acontecer a seguir?) em vez de intervalos de parâmetros.

Decomposição de incerteza na prática

Regressão: decomposição de variância

Uma decomposição comum (bayesiana ou baseada em comitê) é:

[ \mathrm{Var}(y\mid x,D) = \underbrace{\mathbb{E}{\theta\sim p(\theta\mid D)}[\sigma^2\theta(x)]}{\text{aleatória}} ;+; \underbrace{\mathrm{Var}{\theta\sim p(\theta\mid D)}[\mu_\theta(x)]}_{\text{epistêmica}} ]

  • (\mu_\theta(x)): média prevista pelo modelo
  • (\sigma^2_\theta(x)): variância de ruído prevista pelo modelo (se for modelada)

Interpretação:

  • Se os modelos discordam sobre a média, a incerteza epistêmica é alta (você está incerto sobre a função).
  • Se todos os modelos concordam, mas (\sigma^2(x)) é grande, o problema é inerentemente ruidoso ali.

Classificação: entropia e informação mútua

Para classificadores bayesianos ou comitês, uma medida epistêmica útil é a informação mútua entre previsões e parâmetros:

  • Entropia preditiva: (H!\left[\mathbb{E}_\theta p(y\mid x,\theta)\right])
  • Entropia esperada: (\mathbb{E}_\theta H[p(y\mid x,\theta)])
  • Epistêmica (aprox.):
    [ \mathrm{MI}(y,\theta\mid x,D) = H[p(y\mid x,D)] - \mathbb{E}_{\theta}[H[p(y\mid x,\theta)]] ]

MI alta indica discordância entre modelos plausíveis (epistêmica), mesmo que cada modelo individual esteja confiante.

Propagando incerteza (das entradas para as saídas)

A quantificação de incerteza não trata apenas de estimar incerteza no preditor final; trata também de como a incerteza flui pelas computações.

Propagação por Monte Carlo (Monte Carlo) (uso geral)

Se as entradas (x) são incertas (erro de medição, ausência de valores, variabilidade de cenários), represente-as como uma distribuição (p(x)) e propague via amostragem:

  1. Amostre (x^{(s)} \sim p(x))
  2. Amostre desfechos do modelo (y^{(s)} \sim p(y\mid x^{(s)}, D)) (ou calcule o determinístico (f(x^{(s)})))
  3. Resuma ({y^{(s)}}) como intervalos/quantis/riscos de cauda

Isso é amplamente usado em modelagem científica e em pipelines de aprendizado de máquina (ex.: percepção upstream incerta alimentando o planejamento downstream).

Linearização / método delta (delta method) (aproximação rápida)

Para funções suaves (y=f(x)) com ruído Gaussiano pequeno em (x), aproxime: [ \mathrm{Var}(y) \approx J ,\Sigma_x, J^\top ] onde (J) é o Jacobiano de (f) na entrada média. Isso é comum em controle e modelos de física, mas pode ser impreciso para modelos de aprendizado de máquina altamente não lineares.

Considerações de modelagem científica

Em computação científica (solvers de EDP (PDE solvers), clima, dinâmica de fluidos computacional (CFD)), a quantificação de incerteza frequentemente inclui:

  • Parâmetros incertos (propriedades de materiais, condições de contorno)
  • Discrepância do modelo (o simulador é uma aproximação da realidade)
  • Erro numérico (discretização)

Métodos incluem Monte Carlo, quase-Monte Carlo (quasi-Monte Carlo), caos polinomial (polynomial chaos) e calibração bayesiana (Bayesian calibration). O principal elo conceitual com aprendizado de máquina: você quer uma distribuição preditiva que reflita tanto a incerteza de parâmetros quanto o ruído de observação.

Métodos práticos de quantificação de incerteza em aprendizado de máquina

Esta seção cobre abordagens comumente usadas, sua intuição e modos típicos de falha.

Abordagens bayesianas

Regressão linear bayesiana (Bayesian linear regression) (linha de base conceitual)

Para modelos lineares com ruído Gaussiano e priors, você pode computar um posterior exato e uma distribuição preditiva a posteriori. Isso é uma referência útil: separa claramente a incerteza de parâmetros (epistêmica) do ruído de observação (aleatória).

Processos gaussianos (Gaussian processes, GPs)

Processos Gaussianos definem diretamente uma distribuição sobre funções (f(x)). Eles fornecem incerteza calibrada em muitos regimes de baixa a média quantidade de dados e são amplamente usados em otimização bayesiana (Bayesian optimization) e regressão científica. Limitações incluem escalabilidade para grandes conjuntos de dados e escolha de kernel.

Redes neurais bayesianas (Bayesian neural networks, BNNs)

Redes Neurais Bayesianas colocam distribuições sobre pesos. A inferência exata é intratável para redes modernas, então aproximações são usadas:

  • Inferência variacional (variational inference) (otimiza um posterior aproximado tratável)
  • Aproximação de Laplace (Laplace approximation) (aproximação Gaussiana local em torno de um modo)
  • MCMC (MCMC) (mais precisa, mas frequentemente custosa)

Redes neurais bayesianas podem fornecer forte incerteza epistêmica, mas a qualidade depende fortemente da aproximação e dos priors.

Comitês profundos (deep ensembles) (forte linha de base)

Comitês profundos treinam (M) modelos com diferentes sementes aleatórias (e frequentemente reamostragem de dados ou diferentes hiperparâmetros (hyperparameters)). A incerteza preditiva é estimada a partir da dispersão das previsões.

Para regressão:

  • Treine modelos que produzam média (e opcionalmente variância)
  • Use a variância do comitê das médias como incerteza epistêmica
  • Use a média da variância prevista como incerteza aleatória (se modelada)

Para classificação:

  • Faça a média das probabilidades entre os membros do comitê
  • Calcule entropia preditiva, informação mútua etc.

Por que eles funcionam bem:

  • Eles aproximam múltiplos modos no espaço de parâmetros
  • Frequentemente superam aproximações mais “bayesianas” na prática

Desvantagens:

  • O custo de treinamento escala com (M)
  • Sem calibração explícita, comitês ainda podem ficar mal calibrados sob mudança

Conceito relacionado: Métodos de Comitê (Ensemble Methods).

Dropout de Monte Carlo (Monte Carlo dropout) (inferência bayesiana aproximada barata)

Dropout de Monte Carlo usa dropout em tempo de inferência e realiza múltiplas passagens diretas estocásticas:

  1. Mantenha o dropout habilitado no teste
  2. Execute (T) passagens para obter previsões ({p^{(t)}})
  3. Use a média e a variância como estimativa de incerteza

Isso aproxima inferência variacional sob certas suposições. É popular porque requer mudanças mínimas no código.

Limitações:

  • A qualidade da incerteza depende do posicionamento e da taxa de dropout
  • Pode subestimar a incerteza sob mudança de distribuição
  • Menos expressivo que comitês profundos em muitos cenários

Métodos distribucionais / de quantis (não bayesianos)

Às vezes você quer incerteza, mas não um posterior bayesiano:

  • Regressão quantílica (quantile regression): prevê diretamente quantis condicionais (ex.: 0,05 e 0,95)
  • Regressão heterocedástica: prevê média e variância, treinada via NLL Gaussiana
  • Redes de densidade de mistura (mixture density networks): prevê componentes de mistura para saídas multimodais
  • Variantes probabilísticas de gradient boosting (ex.: NGBoost)

Elas podem capturar bem a incerteza aleatória, mas a incerteza epistêmica é mais difícil sem comitês ou camadas bayesianas.

Predição conforme (conformal prediction) (garantias de cobertura)

Predição Conforme é um conjunto de técnicas que envolvem quase qualquer modelo para produzir intervalos/conjuntos de predição com garantias de cobertura em amostra finita, sob uma suposição de permutabilidade (exchangeability) (aproximadamente dados i.i.d.).

Principais características:

  • Funciona com qualquer modelo base (redes neurais (neural nets), árvores, modelos lineares)
  • Produz intervalos/conjuntos que atingem a cobertura-alvo (ex.: 90%) sem suposições distribucionais fortes
  • Particularmente útil quando a calibração da incerteza é crítica

Trade-offs:

  • Os intervalos podem ser largos se o modelo base for fraco
  • As garantias podem falhar sob mudança de distribuição (embora existam variantes para mudança de covariáveis (covariate shift) e séries temporais)

Exemplos práticos

Exemplo 1: regressão heterocedástica (incerteza aleatória)

Suponha que você preveja o tempo de entrega. Entregas urbanas têm variabilidade maior do que as suburbanas. Um modelo pode produzir tanto média quanto variância:

# PyTorch-like sketch: model outputs mean and log-variance
mu, log_var = model(x)              # log_var stabilizes training
var = torch.exp(log_var)

# Gaussian negative log-likelihood
nll = 0.5 * (log_var + (y - mu)**2 / var)
loss = nll.mean()
loss.backward()
  • A var(x) aprendida captura a incerteza aleatória (ruído que depende da entrada).
  • Para capturar incerteza epistêmica, você poderia treinar um comitê desses modelos e medir a discordância em mu.

Exemplo 2: dropout de Monte Carlo para incerteza epistêmica

model.train()  # enable dropout at inference
probs = []
for _ in range(50):
    probs.append(torch.softmax(model(x), dim=-1))
p = torch.stack(probs)                 # [T, batch, classes]
p_mean = p.mean(dim=0)
predictive_entropy = -(p_mean * p_mean.log()).sum(dim=-1)

Entropia alta frequentemente se correlaciona com previsões incertas, mas, para incerteza epistêmica especificamente, você normalmente calcularia informação mútua usando tanto entropia preditiva quanto entropia esperada.

Exemplo 3: intervalo de predição conforme para regressão (conceitual)

Usando conformal split:

  1. Ajuste um modelo de regressão nos dados de treino
  2. Em um conjunto de calibração, compute resíduos (r_i = |y_i - \hat{y}_i|)
  3. Seja (q) o quantil ((1-\alpha)) dos resíduos
  4. Produza o intervalo ([\hat{y}(x)-q, \hat{y}(x)+q])

Isso produz cobertura marginal (marginal coverage) aproximada: (P(y \in \text{intervalo}) \ge 1-\alpha).

Avaliando incerteza: suas incertezas estão *certas*?

Estimativas de incerteza devem ser avaliadas, não presumidas corretas. Isso se encaixa na caixa de ferramentas mais ampla de avaliação, ao lado de Métricas (Metrics) e de separação cuidadosa de dados como Divisão treino-teste (Train-Test Split), Validação e validação cruzada e Validação cruzada para séries temporais (Time Series Cross-Validation).

Calibração (correção probabilística)

Para classificação, a calibração pergunta: entre previsões às quais foi atribuída probabilidade 0,8, ~80% de fato ocorrem? Ferramentas comuns:

  • Diagramas de confiabilidade (reliability diagrams)
  • Erro Esperado de Calibração (Expected Calibration Error, ECE) (use com cuidado; depende do binning)
  • Pontuação de Brier (Brier score) (regra de pontuação apropriada)

Veja Calibração.

Regras de pontuação próprias (proper scoring rules) (recompensam distribuições honestas)

Se seu modelo produz uma distribuição, avalie a distribuição:

  • Log-verossimilhança negativa (negative log-likelihood, NLL) / log score: penaliza fortemente o excesso de confiança
  • CRPS (continuous ranked probability score, CRPS): comum em previsão probabilística
  • Perda pinball (pinball loss) para regressão quantílica

Regras de pontuação próprias incentivam incerteza verdadeira, ao contrário de medidas ad-hoc de confiança.

Qualidade de intervalos/conjuntos: cobertura e nitidez

Para intervalos/conjuntos de predição:

  • Cobertura: fração de resultados verdadeiros contidos (deve corresponder ao alvo, ex.: 90%)
  • Nitidez (sharpness): largura/tamanho médio (menor é melhor dada a cobertura correta)

A quantificação de incerteza é um trade-off: sempre prever um intervalo enorme dá ótima cobertura, mas não é útil.

Fatiamento e consciência de mudança

A incerteza pode ser mal estimada em subgrupos específicos (ex.: demografias raras) ou condições (noite vs dia). Use Análise de Erros (Fatiamento) para verificar:

  • Cobertura por subgrupo
  • Calibração por subgrupo
  • Desempenho/incerteza sob mudança de covariáveis

Usando incerteza para tomada de decisão sob risco

A quantificação de incerteza se torna valiosa quando muda as ações.

Limiarização sensível ao risco

Em classificação binária (detecção de fraude, triagem de doenças), decida com base em:

  • (P(y=1\mid x)) e custos de falsos positivos/negativos
  • Escolha um limiar (t) que minimize o custo esperado

Quando as probabilidades são calibradas, decisões por custo esperado se tornam significativas.

Opção de rejeição / abstenção (abstention)

Se estiver incerto, um sistema pode delegar a um humano ou solicitar mais dados:

  • Se a entropia preditiva for alta, abstenha-se
  • Ou, se o conjunto de predição conforme contiver múltiplas classes, encaminhe para revisão manual

Isso é comum em imagem médica e moderação de conteúdo.

Aprendizado ativo (active learning) e aquisição de dados

A incerteza epistêmica pode orientar quais dados rotular em seguida:

  • Amostrar pontos onde o modelo mais discorda (variância do comitê / informação mútua)
  • Particularmente útil quando rótulos são caros

Veja Aprendizado Ativo.

Segurança e medidas de risco de cauda

Em cenários de alto risco você se importa com extremos:

  • Probabilidade de falha catastrófica (P(y > \tau))
  • Valor em Risco (Value-at-Risk, VaR) / Valor em Risco Condicional (Conditional VaR, CVaR) para controle de risco de cauda pesada

Uma distribuição preditiva permite isso diretamente; previsões pontuais não.

Inferência científica e políticas públicas

Em clima ou epidemiologia, decisões frequentemente exigem:

  • Propagar incerteza de parâmetros por simulações
  • Reportar intervalos credíveis sobre resultados
  • Fazer stress testing de políticas sob cenários incertos

Armadilhas comuns e boas práticas

  • Não equipare confiança do softmax (softmax) com incerteza. Redes neurais podem ser excessivamente confiantes, especialmente sob mudança de distribuição.
  • Separe dados de calibração. Muitos métodos de quantificação de incerteza (escalonamento de temperatura (temperature scaling), calibração conforme) precisam de um conjunto de calibração separado — evite usar o conjunto de teste.
  • Leve em conta dependência temporal. Para séries temporais, use Validação cruzada para séries temporais; suposições i.i.d. por trás de algumas garantias de quantificação de incerteza podem não valer.
  • Distingua epistêmica vs aleatória na interpretação. Ruído aleatório alto sugere imprevisibilidade inerente; epistêmica alta sugere “ainda não sabemos”.
  • Valide sob mudança. A quantificação de incerteza que funciona em-distribuição pode falhar fora da distribuição (out-of-distribution); a incerteza pode se tornar excessivamente confiante ou sem sentido.
  • Prefira linhas de base fortes. Comitês profundos e predição conforme frequentemente são pontos de partida robustos antes de modelagem bayesiana mais complexa.

Relação com tópicos próximos

  • Estimativa de Incerteza (Uncertainty Estimation) foca em estimadores e sinais (quais números calcular). Quantificação de incerteza enfatiza representações (distribuições/intervalos), propagação e uso em decisões.
  • Calibração é uma propriedade central de previsões probabilísticas; sem calibração, a incerteza pode enganar.
  • Predição Conforme fornece garantias práticas de cobertura e frequentemente é usada como um “invólucro” para quantificação de incerteza.
  • Métricas e boa higiene de avaliação determinam se a incerteza é confiável e acionável.

Resumo

A Quantificação de Incerteza transforma modelos de aprendizado de máquina e científicos de preditores pontuais em ferramentas de suporte à decisão ao produzir distribuições preditivas, intervalos ou conjuntos e ao separar a incerteza em aleatória (ruído inerente) e epistêmica (ignorância do modelo). Métodos práticos de quantificação de incerteza incluem inferência bayesiana, processos gaussianos, comitês profundos, dropout de Monte Carlo e predição conforme. Quantificação de incerteza de alta qualidade exige avaliação cuidadosa (calibração, regras de pontuação próprias, cobertura/nitidez) e se torna mais valiosa quando informa decisões sob risco: abstenção, limiarização, aprendizado ativo e controle de risco de cauda.