Estimativa de Incerteza

Visão geral

A estimativa de incerteza (uncertainty estimation) (também chamada de quantificação de incerteza (uncertainty quantification) ou incerteza preditiva (predictive uncertainty)) é a prática de associar a cada previsão uma medida fundamentada de “quão certo” um modelo está. Na avaliação de aprendizado de máquina (machine learning), a incerteza importa porque apenas a acurácia não diz:

quando um modelo provavelmente errará,
quanto risco uma previsão carrega,
se uma amostra está fora da distribuição (out of distribution, OOD) em relação aos dados de treinamento,
como fazer o trade-off entre automação vs. encaminhamento (deferral) para um humano,
como orientar a coleta de dados (p. ex., aprendizado ativo (active learning)) em direção aos exemplos mais informativos.

A estimativa de incerteza está intimamente relacionada à modelagem probabilística (probabilistic modeling) e à calibração (calibration). Um modelo pode produzir probabilidades e ainda assim estar mal calibrado (sistematicamente confiante demais ou confiante de menos). Veja Calibração para técnicas que alinham probabilidades previstas com frequências observadas.

Incerteza aleatória vs. epistêmica

Uma divisão conceitual útil é:

Incerteza aleatória (incerteza dos dados)

A incerteza aleatória (aleatoric uncertainty) é a incerteza inerente ao processo de geração de dados — ruído que não pode ser reduzido nem mesmo com dados infinitos.

Fontes típicas:

Ruído de medição (erro de sensor)
Resultados estocásticos (p. ex., se um usuário clica)
Rótulos ambíguos (até especialistas discordam)
Sobreposição de classes (as características não determinam de forma única o rótulo)

Propriedades:

Frequentemente dependente da entrada (heteroscedástica (heteroscedastic)): algumas regiões do espaço de entrada são mais ruidosas do que outras.
Não é resolvida coletando mais dados do mesmo tipo; você pode precisar de sensores melhores, melhores características (features) ou uma política de rotulagem melhor.

Exemplo:

Prever tempo de viagem: o tráfego introduz aleatoriedade irredutível. Mesmo um modelo perfeito não consegue prever o tempo exato de viagem todos os dias.

Incerteza epistêmica (incerteza do modelo)

A incerteza epistêmica (epistemic uncertainty) vem da falta de conhecimento: cobertura limitada de dados, parâmetros incertos ou especificação incorreta do modelo (model misspecification). Ela pode, em princípio, ser reduzida com mais dados (relevantes) ou com uma classe de modelos melhor.

Fontes típicas:

Dados de treinamento esparsos em alguma região do espaço de características
Mudança de distribuição (distribution shift) (os dados em produção diferem dos de treinamento)
Família de modelos simples demais (especificação incorreta)
Incerteza de otimização (optimization uncertainty) (múltiplas configurações de parâmetros plausíveis)

Propriedades:

Normalmente alta longe dos dados de treinamento e baixa perto de regiões bem cobertas.
Importante para detecção fora da distribuição (OOD) e tomada de decisão segura.

Exemplo:

Um classificador de imagens médicas treinado majoritariamente em adultos pode ficar incerto em imagens pediátricas porque não aprendeu padrões pediátricos.

Incerteza preditiva e a lei da variância total

Uma forma clara de ver os dois tipos juntos é por meio da distribuição preditiva (predictive distribution). Seja (D) o conjunto de treinamento, (x) uma entrada, (y) o alvo e (w) os parâmetros do modelo.

Em termos bayesianos (Bayesian), a distribuição preditiva é:

[ p(y \mid x, D) = \int p(y \mid x, w), p(w \mid D), dw ]

A lei da variância total (law of total variance) decompõe a variância preditiva (caso de regressão (regression)) em:

[ \mathrm{Var}(y \mid x, D) = \mathbb{E}_{w \sim p(w \mid D)}[\mathrm{Var}(y \mid x, w)]

\mathrm{Var}_{w \sim p(w \mid D)}(\mathbb{E}[y \mid x, w]) ]

Interpretação:

(\mathbb{E}_{w}[\mathrm{Var}(y \mid x, w)]): aleatória (ruído que o modelo prevê mesmo se os parâmetros fossem conhecidos)
(\mathrm{Var}_{w}(\mathbb{E}[y \mid x, w])): epistêmica (incerteza devido a parâmetros incertos)

Para classificação, você pode usar decomposições análogas com entropia preditiva (predictive entropy) e informação mútua (mutual information) (comum em aprendizado profundo bayesiano (Bayesian deep learning)), mas a intuição é a mesma: aleatória é ambiguidade nos rótulos dado (x), epistêmica é incerteza sobre as crenças do modelo devido a evidência limitada.

O que a “estimativa de incerteza” deve produzir?

Saídas comuns incluem:

Probabilidades preditivas (p(y \mid x)) (classificação)
Parâmetros da distribuição preditiva (p. ex., média e variância em regressão)
Intervalos de previsão (p. ex., intervalo de 90%)
Escores de incerteza para ranqueamento (p. ex., entropia, variância, informação mútua)

Boas estimativas de incerteza devem ser:

Calibradas: a confiança prevista corresponde à correção empírica (Calibração)
Discriminativas: incerteza maior correlaciona com erro maior
Robustas sob mudança: a incerteza aumenta quando as entradas são pouco familiares (difícil na prática)
Úteis para decisões: habilita abstenção, triagem (triage), limiares sensíveis a risco (risk-aware thresholds)

Métodos práticos de estimativa

Nenhum método domina em todos os domínios. Abaixo estão abordagens amplamente usadas, agrupadas por capturarem principalmente a incerteza aleatória, epistêmica ou ambas.

1) Escores de incerteza de linha de base (baseline uncertainty scores) (baratos, mas limitados)

Eles são frequentemente usados como heurísticas rápidas, especialmente em classificação:

Probabilidade máxima do softmax (max softmax probability): (1 - \max_k p(y=k \mid x))
Entropia preditiva: (-\sum_k p_k \log p_k)
Margem: diferença entre as duas maiores probabilidades de classe

Ressalva: redes neurais profundas (deep networks) modernas podem ser confiantes demais, especialmente fora da distribuição (OOD). A confiança baseada em softmax pode parecer alta mesmo quando o modelo está errado. Por isso calibração e métodos epistêmicos mais robustos importam.

2) Modelando incerteza aleatória

Regressão heteroscedástica (aprenda uma variância por entrada)

Uma abordagem comum é prever tanto uma média (\mu(x)) quanto uma variância (\sigma^2(x)) e treinar com log-verossimilhança negativa (negative log-likelihood, NLL) Gaussiana:

[ \mathcal{L}(x,y) = \frac{(y-\mu(x))^2}{2\sigma^2(x)} + \frac{1}{2}\log \sigma^2(x) ]

Isso permite ao modelo expressar ruído dependente da entrada. Captura bem a incerteza aleatória quando a suposição Gaussiana é razoável (ou como uma aproximação pragmática).

Dicas práticas:

Preveja (\log \sigma^2(x)) para estabilidade numérica.
Evite colapso da variância com regularização e inicialização cuidadosa.
Considere verossimilhanças alternativas para caudas pesadas (Laplace, Student-t).

Regressão quantílica (intervalos de previsão sem suposições distribucionais)

A regressão quantílica (quantile regression) prevê quantis condicionais (q_\tau(x)) (p. ex., percentis 5 e 95) usando a perda pinball (pinball loss). Isso produz intervalos de previsão diretamente.

Prós:

Não há necessidade de assumir ruído Gaussiano.
Útil quando você se importa com incerteza assimétrica.

Contras:

Os intervalos resultantes podem não ser calibrados sem técnicas adicionais.
Fornece informação epistêmica limitada por si só (ainda é um modelo com estimativa pontual).

Ruído de rótulos e classificação ambígua

Em classificação, a incerteza aleatória frequentemente vem de ambiguidade real ou ruído de rotulagem. Algumas estratégias:

Modelos explícitos de ruído (p. ex., aprender uma matriz de confusão (confusion matrix))
Perdas robustas e reponderação (reweighting) (útil quando os rótulos estão corrompidos)
Prever uma distribuição sobre probabilidades de classe com parâmetros de concentração (concentration parameters) (p. ex., abordagens baseadas em Dirichlet), embora esses métodos possam ser difíceis de calibrar e validar.

3) Estimando incerteza epistêmica (incerteza nos parâmetros (parameter uncertainty))

Ensembles profundos (deep ensembles) (forte baseline prático)

Ensembles profundos treinam múltiplos modelos independentemente (sementes aleatórias diferentes, ordem dos dados, amostragens bootstrap (bootstraps) ou hiperparâmetros (hyperparameters)) e combinam suas previsões.

Classificação: média das probabilidades entre os membros do ensemble
Regressão: combinar médias/variâncias previstas; a dispersão das médias reflete incerteza epistêmica

Por que funciona:

Diferentes execuções de treinamento encontram diferentes soluções plausíveis.
A variância do ensemble atua como um proxy para incerteza nos parâmetros.

Trade-offs:

Requer (M\times) o custo de treinamento e o custo de inferência (embora a inferência possa ser paralelizada).
Frequentemente está entre as opções mais confiáveis na prática tanto para acurácia quanto para incerteza.

Dropout de Monte Carlo (MC dropout) (inferência bayesiana aproximada)

O dropout de Monte Carlo mantém o dropout ativado no momento da inferência e executa múltiplas passagens forward estocásticas. A variação entre as passagens estima a incerteza epistêmica.

Prós:

Fácil de adicionar a muitas redes neurais.
Muito mais barato do que treinar múltiplos modelos completos.

Contras:

A aproximação bayesiana pode ser grosseira.
Funciona melhor quando dropout foi usado adequadamente durante o treinamento e posicionado de forma criteriosa.

Conceito relacionado: métodos de inferência aproximada como Inferência Variacional (Variational Inference) buscam representar a incerteza sobre os pesos de forma mais direta, mas em geral são mais difíceis de acertar do que ensembles.

Aproximação de Laplace / bayesiano na última camada (last-layer Bayesian)

Um meio-termo pragmático:

Treine uma rede determinística.
Ajuste uma aproximação Gaussiana ao redor do ótimo (muitas vezes apenas para a última camada).

Prós:

Muito mais barato do que redes neurais bayesianas (Bayesian neural nets) completas.
Pode produzir estimativas epistêmicas razoáveis em muitas tarefas.

Contras:

A qualidade da aproximação depende da curvatura e do comportamento do modelo.
Ainda pode ter dificuldades sob mudança de distribuição forte.

Processos Gaussianos (Gaussian processes, GPs)

Processos Gaussianos (Gaussian Processes) fornecem incerteza fundamentada com forte embasamento teórico. Eles frequentemente oferecem excelente incerteza calibrada em regimes de dados pequenos a médios.

Prós:

Incerteza epistêmica natural que cresce ao se afastar dos dados.
Arcabouço probabilístico bem compreendido.

Contras:

Escalar para grandes conjuntos de dados pode ser difícil (embora GPs esparsos/aproximados ajudem).
Escolher kernels/características é crucial (aprendizado profundo de kernels (deep kernel learning) combina GPs e redes profundas).

4) Capturando ambas: métodos combinados

Em muitos sistemas reais você quer ambos os tipos:

Regressão heteroscedástica + ensemble: cada modelo prevê (\mu(x), \sigma^2(x)); a variância se decompõe em:
- dispersão das médias entre modelos (epistêmica)
- (\sigma^2(x)) prevista (aleatória)
Ensembles de classificadores probabilísticos: a discordância do ensemble reflete incerteza epistêmica; a sobreposição de classes reflete incerteza aleatória.

Uma decomposição de regressão comum usada com ensembles:

Média preditiva: [ \bar{\mu}(x) = \frac{1}{M}\sum_{m=1}^M \mu_m(x) ]
Estimativa aleatória: [ \widehat{U}\text{alea}(x) = \frac{1}{M}\sum{m=1}^M \sigma_m^2(x) ]
Estimativa epistêmica: [ \widehat{U}\text{epi}(x) = \frac{1}{M}\sum{m=1}^M (\mu_m(x)-\bar{\mu}(x))^2 ]
Variância preditiva total (\approx \widehat{U}\text{alea} + \widehat{U}\text{epi})

5) Predição conformal (Conformal Prediction) (intervalos livres de distribuição (distribution-free intervals))

Predição Conformal (Conformal Prediction) produz conjuntos/intervalos de previsão com garantias de cobertura em amostra finita (finite-sample coverage guarantees) sob suposições mínimas (tipicamente trocabilidade (exchangeability) / dados i.i.d.).

Ideia-chave:

Use um conjunto de calibração para medir quão “não conformes (nonconforming)” são as previsões.
Aumente os intervalos/conjuntos até atingir (p. ex.) 90% de cobertura marginal.

Prós:

Garantia forte e interpretável (“contém o rótulo verdadeiro 90% das vezes”).
Funciona com qualquer modelo subjacente (árvore, rede neural, ensemble).

Contras:

As garantias normalmente são marginais (médias sobre a distribuição de dados), não necessariamente por subgrupo.
Sob mudança de distribuição, as garantias podem falhar a menos que você use variantes especializadas.

Métodos conformais são frequentemente usados em produção porque traduzem incerteza preditiva em saídas acionáveis com cobertura controlada (coverage-controlled).

Exemplos práticos

Exemplo 1: Regressão com incerteza heteroscedástica (estilo PyTorch)

Abaixo está um esboço mínimo mostrando como prever média e log-variância e treinar com NLL Gaussiana.

import torch
import torch.nn as nn
import torch.nn.functional as F

class HeteroscedasticRegressor(nn.Module):
    def __init__(self, d_in, d_hidden=64):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(d_in, d_hidden), nn.ReLU(),
            nn.Linear(d_hidden, d_hidden), nn.ReLU()
        )
        self.mu_head = nn.Linear(d_hidden, 1)
        self.logvar_head = nn.Linear(d_hidden, 1)

    def forward(self, x):
        h = self.net(x)
        mu = self.mu_head(h)
        logvar = self.logvar_head(h)  # predicts log(sigma^2)
        return mu, logvar

def gaussian_nll(y, mu, logvar):
    # stable NLL for Normal(mu, sigma^2)
    return 0.5 * (torch.exp(-logvar) * (y - mu) ** 2 + logvar).mean()

# training step:
# mu, logvar = model(x)
# loss = gaussian_nll(y, mu, logvar)
# loss.backward(); optimizer.step()

Como interpretar:

exp(logvar) é a variância aleatória estimada pelo modelo naquela entrada.
Para estimar incerteza epistêmica, treine um ensemble desses modelos e meça a discordância em mu.

Exemplo 2: Incerteza de classificação com um ensemble profundo (conceitual)

Suponha que você treine 5 modelos e obtenha probabilidades previstas para a classe “fraude”:

Saídas do modelo: [0.90, 0.87, 0.92, 0.20, 0.25]

A probabilidade média é ~0.63 (moderada), mas, mais importante:

A discordância é alta → a incerteza epistêmica é alta (os modelos “não concordam”).
Isso pode indicar que o exemplo é atípico, sub-representado, ou fora da distribuição (OOD).
Uma política pode encaminhar tais casos para revisão manual mesmo se a probabilidade média não for extrema.

Em contraste, se todos os modelos produzirem ~0.63 de forma consistente, isso sugere menor incerteza epistêmica; a incerteza restante é mais provavelmente aleatória (ambiguidade inerente).

Como avaliar estimativas de incerteza

A estimativa de incerteza é parte da avaliação, então você deve medi-la com métricas e protocolos apropriados (veja Métricas e Validação e Validação Cruzada).

Regras de pontuação adequadas (proper scoring rules) (acurácia probabilística)

Use métricas que recompensam probabilidades corretas, não apenas rótulos corretos:

Log-verossimilhança negativa (NLL) / entropia cruzada (cross-entropy): pune fortemente a confiança excessiva
Pontuação de Brier (Brier score): erro quadrático entre probabilidades previstas e resultados
CRPS (Continuous Ranked Probability Score) (regressão): avalia distribuições preditivas completas

Elas são “adequadas” no sentido de que a melhor estratégia é reportar probabilidades verdadeiras (em expectativa).

Métricas e gráficos de calibração

Diagramas de confiabilidade (reliability diagrams)
Erro de calibração esperado (expected calibration error, ECE) e variantes
Para intervalos de regressão: cobertura empírica vs. cobertura nominal

A calibração frequentemente precisa de seu próprio conjunto de retenção (holdout set); não reutilize acidentalmente dados de teste para calibração.

Predição seletiva (selective prediction) / curvas risco–cobertura (risk–coverage curves)

Uma avaliação prática é: “Se o modelo pode se abster quando está incerto, quanto erro permanece?”

Procedimento:

Ordene as previsões por incerteza (alta → baixa confiança).
Mantenha apenas os (k%) mais confiantes.
Plote o erro (“risco”) vs. a fração retida (“cobertura”).

Boas estimativas de incerteza geram melhorias acentuadas: abster-se em casos incertos reduz o erro de forma marcante.

Análise por fatias (slice-based analysis)

A incerteza pode ser sistematicamente pior para certos coortes (dispositivos, geografias, idiomas, subpopulações). Combine avaliação de incerteza com Análise de Erros (Fatiamento) para encontrar onde a incerteza está mal estimada ou onde o modelo precisa de mais dados.

Aplicações em sistemas reais

Tomada de decisão sob incerteza

A incerteza se torna valiosa quando combinada com custos:

Abster-se / encaminhar para humanos quando a incerteza é alta
Acionar testes adicionais (medicina) ou etapas de verificação (fraude)
Escolher ações conservadoras (robótica, controle) quando a incerteza é grande

Detecção fora da distribuição e monitoramento

A incerteza epistêmica deveria aumentar em entradas fora da distribuição, mas nem todos os métodos fazem isso de forma confiável. Em produção, combine:

proxies epistêmicos (ensembles, dropout de Monte Carlo),
métodos explícitos de OOD (distância no espaço de embeddings (embedding space), modelos de densidade (density models)),
monitoramento de mudança de distribuição e regressão de desempenho (performance regression).

Aprendizado ativo

Aprendizado Ativo consulta rótulos para pontos com alta incerteza epistêmica (p. ex., discordância do ensemble), o que pode ser eficiente em dados — desde que a medida de incerteza seja significativa e você evite amostrar apenas pontos ruidosos/ambíguos (aleatórios).

Orientação prática: escolhendo um método

Se você precisa de desempenho forte e simples e pode arcar com computação: comece com ensembles profundos.
Se você precisa de intervalos aleatórios para regressão: use verossimilhança heteroscedástica ou regressão quantílica; opcionalmente adicione um ensemble para epistêmica.
Se você precisa de garantias de cobertura: use predição conformal sobre um modelo base forte.
Se você precisa de incerteza bayesiana “aproximada” rápida em uma rede neural: tente dropout de Monte Carlo, mas valide cuidadosamente.
Se você tem poucos dados e quer incerteza epistêmica bem fundamentada: considere processos gaussianos.

Também garanta que seu protocolo de avaliação é sólido:

Use divisões adequadas de treino/validação/teste e evite vazamento (Validação e Validação Cruzada).
Calibre em um conjunto separado de validação/calibração (Calibração).
Para decisões de produto, desenhe experimentos com poder estatístico suficiente (Desenho de Experimentos e Poder).

Armadilhas comuns e modos de falha

Equiparar confiança do softmax com correção: redes neurais podem errar com alta confiança, especialmente fora da distribuição.
Confiar demais em estimativas epistêmicas sob mudança de distribuição: algumas abordagens subestimam incerteza em entradas novas.
Confundir aleatória e epistêmica: alta incerteza pode refletir ambiguidade irredutível, não falta de dados de treinamento.
Avaliar apenas em conjuntos de teste dentro da distribuição: a incerteza é mais valiosa sob mudança e em casos de borda.
Ignorar calibração: saídas probabilísticas sem calibração podem induzir decisões downstream ao erro.

Resumo

A estimativa de incerteza transforma previsões em saídas prontas para decisão ao quantificar o que o modelo sabe e o que não sabe. A distinção-chave é:

Incerteza aleatória: ruído/ambiguidade irredutível nos dados.
Incerteza epistêmica: incerteza devido a dados limitados ou conhecimento do modelo, redutível com melhor cobertura/modelagem.

Na prática:

Use modelos heteroscedásticos ou regressão quantílica para modelar incerteza aleatória.
Use ensembles, dropout de Monte Carlo, métodos de Laplace/variacionais, ou processos gaussianos para aproximar incerteza epistêmica.
Valide com regras de pontuação adequadas, diagnósticos de calibração, e análises de risco–cobertura, idealmente com avaliação por fatias.

Quando bem feita, a estimativa de incerteza melhora segurança, robustez e alocação de recursos — especialmente quando modelos enfrentam dados complexos do mundo real e condições em mudança.