Inferência Bayesiana

O que é inferência bayesiana?

Inferência bayesiana (Bayesian inference) é uma estrutura para aprender a partir de dados ao atualizar a incerteza sobre quantidades desconhecidas usando probabilidade. Em vez de produzir uma única estimativa “melhor”, métodos bayesianos representam o que você acredita sobre um parâmetro ou hipótese desconhecida como uma distribuição de probabilidade, e então a atualizam conforme novas evidências chegam.

Em sua essência, a inferência bayesiana gira em torno de quatro conceitos:

  • A priori (prior) (p(\theta)): suas crenças sobre uma quantidade desconhecida (\theta) antes de ver os dados atuais.
  • Verossimilhança (likelihood) (p(D \mid \theta)): quão prováveis são os dados observados (D) sob diferentes valores de (\theta).
  • A posteriori (posterior) (p(\theta \mid D)): suas crenças atualizadas sobre (\theta) depois de ver os dados.
  • Atualização bayesiana (Bayesian updating): a regra que as conecta — o teorema de Bayes.

A inferência bayesiana é amplamente usada em IA e em aprendizado de máquina (machine learning) modernos para estimativa de incerteza, modelagem probabilística, tomada de decisão sob incerteza (por exemplo, bandits) e regularização fundamentada.

Se você quiser uma revisão sobre distribuições e notação de probabilidade, veja Variáveis Aleatórias e Distribuições.

Teorema de Bayes: o motor da atualização

O teorema de Bayes afirma:

[ p(\theta \mid D) = \frac{p(D \mid \theta),p(\theta)}{p(D)} ]

onde

[ p(D) = \int p(D \mid \theta),p(\theta),d\theta ]

é a verossimilhança marginal (marginal likelihood) (também chamada de evidência (evidence)). Ela normaliza a posterior para que sua integral seja 1.

Uma forma abreviada comum é:

[ p(\theta \mid D) \propto p(D \mid \theta),p(\theta) ]

Leia isso como:

a posteriori (\propto) verossimilhança (\times) a priori

Interpretando os termos

  • A verossimilhança recompensa valores de parâmetros que explicam bem os dados.
  • A a priori codifica restrições, conhecimento de domínio ou preferências de regularização.
  • A a posteriori equilibra ambos: com muitos dados, a verossimilhança frequentemente domina; com poucos dados, a a priori importa mais.

A priori: expressando suposições e conhecimento de domínio

Uma a priori é uma distribuição de probabilidade sobre desconhecidos. A priori não é inerentemente “subjetiva” em um sentido negativo — todo método tem suposições; métodos bayesianos as tornam explícitas.

Categorias comuns:

  • A prioris informativas: codificam conhecimento forte (por exemplo, um tamanho de efeito médico está próximo de zero).
  • A prioris fracamente informativas: descartam suavemente valores absurdos, mantendo flexibilidade.
  • A prioris não informativas / de referência: buscam ter influência mínima (mas podem ser complicadas; algumas são impróprias).

A priori como regularização

Muitos regularizadores padrão de aprendizado de máquina correspondem a a prioris bayesianas:

  • Regularização L2 (ridge) corresponde a uma a priori Gaussiana (Gaussian prior) sobre os pesos.
  • Regularização L1 (lasso) corresponde a uma a priori de Laplace (Laplace prior).

Esse é um dos motivos pelos quais ideias bayesianas aparecem naturalmente em modelos treinados com Descida do Gradiente: a prioris frequentemente se traduzem em termos de penalidade.

Verossimilhança: o modelo dos dados

A verossimilhança (p(D \mid \theta)) é a probabilidade dos dados observados dadas as parâmetros (\theta). Escolher uma verossimilhança é escolher um modelo de ruído e um processo de observação.

Exemplos:

  • Lançamentos de moeda: (D \sim \text{Binomial}(n,\theta))
  • Observações em valores reais com ruído Gaussiano: (D \sim \mathcal{N}(\mu,\sigma^2))
  • Classificação binária: (y \sim \text{Bernoulli}(\sigma(w^\top x))) (regressão logística)

Em modelagem bayesiana, você normalmente especifica:

  1. Uma história gerativa (generative story) de como os dados surgem.
  2. A prioris para partes desconhecidas dessa história.

A posteriori: crenças atualizadas como uma distribuição

A posteriori (p(\theta \mid D)) é o principal resultado da inferência bayesiana. A partir dela, você pode calcular:

  • Estimativas pontuais
    • Média a posteriori: (\mathbb{E}[\theta \mid D])
    • Estimativa MAP: (\arg\max_\theta p(\theta \mid D)) (máximo a posteriori)
  • Intervalos de incerteza
    • Intervalos credíveis (credible intervals) (por exemplo, um intervalo credível de 95% contém 95% da probabilidade a posteriori)
  • Previsões com incerteza
    • Distribuição preditiva a posteriori (próxima seção)

MAP vs MLE (e um vínculo com o pensamento frequentista)

  • MLE (maximum likelihood): (\arg\max_\theta p(D \mid \theta))
  • MAP: (\arg\max_\theta p(D \mid \theta)p(\theta))

MAP adiciona a a priori, atuando como regularização. Para mais sobre estimação e testes frequentistas, veja Estimação e Teste de Hipóteses.

Atualização bayesiana (aprendizado sequencial)

Uma propriedade poderosa da inferência bayesiana é que ela suporta atualização sequencial (sequential updating): você pode atualizar suas crenças conforme os dados chegam, sem “começar do zero”.

Se você vê dados em lotes (D_1, D_2):

[ p(\theta \mid D_1, D_2) \propto p(D_2 \mid \theta),p(\theta \mid D_1) ]

Assim, a posterior de ontem vira a priori de hoje.

Isso é essencial em aprendizado online, sistemas de streaming, robótica e filtragem.

Distribuição preditiva a posteriori: prevendo enquanto considera a incerteza

A predição bayesiana faz a média sobre a incerteza dos parâmetros:

[ p(x_{\text{new}} \mid D) = \int p(x_{\text{new}} \mid \theta),p(\theta \mid D),d\theta ]

Isso é chamado de preditiva a posteriori (posterior predictive). Em geral, ela é melhor calibrada do que previsões “plug-in” que usam uma única estimativa (\hat{\theta}), especialmente com dados limitados ou em contextos ruidosos.

Previsões probabilísticas devem ser avaliadas com ferramentas como Regras de Pontuação Apropriadas (por exemplo, log score, Brier score), e não apenas acurácia.

Exemplo trabalhado 1: lançamentos de moeda (Beta–Binomial)

Suponha que (\theta) seja a probabilidade de uma moeda cair cara. Você a lança (n) vezes e observa (k) caras.

  • Verossimilhança: (k \mid \theta \sim \text{Binomial}(n,\theta))
  • A priori: (\theta \sim \text{Beta}(\alpha,\beta))

A distribuição Beta é conjugada da Binomial, então a posterior é:

[ \theta \mid k,n \sim \text{Beta}(\alpha + k,\ \beta + (n-k)) ]

Intuição: “pseudocontagens”

(\alpha-1) e (\beta-1) se comportam como contagens a priori de caras e coroas. Por exemplo:

  • (\text{Beta}(1,1)) é uniforme (sem preferência).
  • (\text{Beta}(20,20)) expressa uma crença forte de que a moeda é aproximadamente justa.

Exemplo em Python: atualização da posterior e intervalo credível

import numpy as np
from scipy.stats import beta

# Prior Beta(alpha, beta)
alpha, beta_param = 2, 2  # mild prior toward fairness
n, k = 10, 8              # observed 8 heads out of 10

# Posterior
post_alpha = alpha + k
post_beta = beta_param + (n - k)

# Posterior mean
post_mean = post_alpha / (post_alpha + post_beta)

# 95% credible interval
ci_low, ci_high = beta.ppf([0.025, 0.975], post_alpha, post_beta)

post_mean, (ci_low, ci_high)

Isso produz tanto uma estimativa quanto a incerteza. Com (n) pequeno, o intervalo será amplo; com (n) maior, ele se estreita.

Preditiva a posteriori para o próximo lançamento

A probabilidade de o próximo lançamento dar cara é:

[ p(\text{head next} \mid D)=\mathbb{E}[\theta \mid D]=\frac{\alpha+k}{\alpha+\beta+n} ]

Este é um exemplo simples de média bayesiana de modelos: você está fazendo a média sobre (\theta) em vez de escolher um único valor.

Exemplo trabalhado 2: média Gaussiana com variância conhecida (Normal–Normal)

Assuma observações (x_i \sim \mathcal{N}(\mu, \sigma^2)) com (\sigma^2) conhecida e média (\mu) desconhecida.

Escolha uma a priori (\mu \sim \mathcal{N}(\mu_0, \tau_0^2)). Então a posterior também é Normal:

[ \mu \mid D \sim \mathcal{N}(\mu_n,\tau_n^2) ]

com

[ \tau_n^2 = \left(\frac{1}{\tau_0^2} + \frac{n}{\sigma^2}\right)^{-1},\quad \mu_n = \tau_n^2 \left(\frac{\mu_0}{\tau_0^2} + \frac{n\bar{x}}{\sigma^2}\right) ]

Interpretação

  • A média a posteriori (\mu_n) é uma média ponderada por precisão (precision-weighted average) entre a média a priori (\mu_0) e a média amostral (\bar{x}).
  • A variância a posteriori (\tau_n^2) diminui conforme (n) cresce.

Isso é um modelo para muitos efeitos bayesianos de “encolhimento” (shrinkage): estimativas são puxadas em direção a valores razoáveis quando os dados são fracos.

A prioris conjugadas: quando a inferência é em forma fechada

Uma a priori é conjugada (conjugate) a uma verossimilhança se a posterior está na mesma família de distribuições que a a priori. Conjugação permite atualizações rápidas e exatas.

Pares conjugados comuns:

  • A priori Beta + verossimilhança Binomial → posterior Beta
  • A priori Normal + verossimilhança Normal (variância conhecida) → posterior Normal
  • A priori Dirichlet + verossimilhança Categórica/Multinomial → posterior Dirichlet
  • A priori Gamma + verossimilhança Poisson → posterior Gamma

Conjugação é valiosa para:

  • ensino e intuição,
  • atualizações online,
  • sistemas embarcados ou em tempo real.

Mas, em aprendizado de máquina bayesiano moderno, frequentemente usam-se modelos mais flexíveis nos quais a conjugação exata não está disponível.

Além de parâmetros simples: modelos bayesianos em aprendizado de máquina

Regressão linear bayesiana

Na regressão linear (y = Xw + \epsilon) com (\epsilon \sim \mathcal{N}(0,\sigma^2 I)), uma a priori Gaussiana (w \sim \mathcal{N}(0, \lambda^{-1} I)) produz uma posterior Gaussiana sobre os pesos.

Benefícios:

  • Incerteza sobre coeficientes
  • Previsões com consciência de incerteza (preditiva a posteriori)
  • Uma visão probabilística da regressão ridge

Classificador Naive Bayes

Naive Bayes é um classificador bayesiano clássico que usa o teorema de Bayes mais suposições de independência condicional:

[ p(y \mid x) \propto p(y)\prod_j p(x_j \mid y) ]

Apesar de sua simplicidade, ele funciona bem em classificação de texto e como baseline porque tende a ser eficiente em dados e robusto.

Bayes hierárquico (pooling parcial)

Modelos hierárquicos compartilham força estatística entre grupos. Exemplo: estimar taxas de conversão para muitos segmentos pequenos de usuários.

Em vez de estimar cada segmento de forma independente (alta variância) ou agregá-los todos juntos (alto viés), Bayes hierárquico aprende uma a priori em nível populacional (population-level prior) e parâmetros em nível de segmento:

  • Parâmetros de grupo (\theta_g \sim p(\theta_g \mid \phi))
  • Hiperparâmetros (\phi \sim p(\phi))

Isso produz pooling parcial (partial pooling), frequentemente melhorando a generalização em regimes com dados esparsos.

Comparação de modelos: evidência, fatores de Bayes e critérios de informação

A verossimilhança marginal (evidência) (p(D)) é central para comparar modelos (M):

[ p(D \mid M) = \int p(D \mid \theta, M),p(\theta \mid M),d\theta ]

Um fator de Bayes (Bayes factor) compara dois modelos:

[ BF_{12} = \frac{p(D \mid M_1)}{p(D \mid M_2)} ]

Isso automaticamente equilibra ajuste e complexidade — modelos complexos espalham massa de probabilidade por muitos possíveis conjuntos de dados e podem ser penalizados, a menos que sejam justificados pela evidência.

Na prática, a evidência exata frequentemente é difícil de calcular, então usam-se aproximações e critérios. Veja Critérios de Informação para abordagens no estilo AIC/BIC e sua relação com o pensamento bayesiano (por exemplo, BIC como uma aproximação assintótica da evidência sob suposições).

Métodos práticos de inferência (quando a posterior é difícil)

Para muitos modelos realistas, a posterior não pode ser calculada em forma fechada. Estratégias comuns de aproximação:

Monte Carlo via Cadeias de Markov (MCMC)

Métodos baseados em amostragem (por exemplo, HMC, NUTS) extraem amostras da posterior, permitindo estimativas precisas dado compute suficiente. Frequentemente usados para inferência de alta qualidade em fluxos de trabalho científicos e de programação probabilística. Veja Monte Carlo via Cadeias de Markov.

Inferência variacional (VI)

Aproximação baseada em otimização: escolha uma família simples (q(\theta)) e ajuste-a à posterior minimizando a divergência KL (equivalentemente, maximizando a ELBO). VI é tipicamente mais rápida do que MCMC e escala melhor para grandes conjuntos de dados. Veja Inferência Variacional.

Aproximação de Laplace

Aproxima a posterior em torno de seu modo (MAP) como uma Gaussiana usando curvatura de segunda ordem. Útil para incerteza aproximada em modelos treinados via otimização.

Monte Carlo sequencial / filtros de partículas

Para séries temporais e cenários online, métodos de partículas aproximam posteriors que evoluem ao longo do tempo. Veja Filtro de Partículas.

Inferência bayesiana em aplicações modernas de IA

Estimativa de incerteza e calibração

Métodos bayesianos distinguem:

  • Incerteza aleatória (aleatoric uncertainty) (ruído inerente)
  • Incerteza epistêmica (epistemic uncertainty) (incerteza devido a dados limitados/conhecimento do modelo)

Isso importa para aplicações sensíveis a risco (medicina, direção autônoma, finanças). Mesmo quando métodos totalmente bayesianos são caros, aproximações inspiradas em Bayes podem melhorar calibração e tomada de decisão.

Otimização bayesiana

A otimização bayesiana usa modelos substitutos probabilísticos (frequentemente Processos Gaussianos) para otimizar funções de caixa-preta caras (ajuste de hiperparâmetros, desenho de experimentos) ao equilibrar exploração/aproveitamento.

Bandits de múltiplos braços e amostragem de Thompson

Em bandits, você escolhe ações repetidamente e observa recompensas. Posteriors bayesianas sobre taxas de recompensa permitem amostragem de Thompson (Thompson sampling): amostrar um parâmetro plausível da posterior e agir de forma gulosa sob essa amostra. Veja Amostragem de Thompson.

Redes neurais bayesianas (BNNs)

Redes Neurais podem ser tornadas bayesianas colocando distribuições sobre os pesos. A inferência exata é intratável em escala, mas aproximações (VI, Laplace, ensembles como aproximações) fornecem estimativas úteis de incerteza em aprendizado profundo (deep learning). Veja Redes Neurais Bayesianas.

Programação probabilística

Frameworks como Stan, PyMC, NumPyro e Turing permitem especificar modelos e executar inferência com algoritmos gerais (MCMC/VI). Isso dá suporte à iteração rápida em modelos probabilísticos. Veja Programação Probabilística.

Armadilhas comuns e boas práticas

Escolha a prioris de forma deliberada

  • Prefira a prioris fracamente informativas a menos que exista conhecimento forte de domínio.
  • Verifique distribuições preditivas a priori (prior predictive distributions): simule dados do modelo antes de ajustar para ver se ele produz resultados plausíveis.

Fique atento a problemas de identificabilidade

Alguns modelos não conseguem distinguir parâmetros entre si dados os dados (não identificáveis), levando a posteriors amplas ou multimodais. Reparametrização e a prioris mais fortes podem ajudar.

Não “use” os dados duas vezes

Evite definir a prior usando os mesmos dados que você usará na verossimilhança, a menos que o faça formalmente (por exemplo, modelagem hierárquica). Caso contrário, você corre o risco de excesso de confiança.

Valide com verificações preditivas

Use verificações preditivas a posteriori (posterior predictive checks): simule a partir da preditiva a posteriori e compare com dados reais. Isso testa o modelo como gerador de dados, não apenas como ajustador de curva.

Avalie previsões probabilísticas adequadamente

Acurácia por si só pode esconder descalibração. Use log loss, Brier score, curvas de calibração — veja Regras de Pontuação Apropriadas.

Resumo

A inferência bayesiana fornece uma forma fundamentada de aprender a partir de dados ao combinar:

  • uma a priori (p(\theta)) (suposições/conhecimento),
  • uma verossimilhança (p(D\mid\theta)) (modelo dos dados),
  • em uma a posteriori (p(\theta\mid D)) (crenças atualizadas),

e atualizando sequencialmente conforme a evidência se acumula. Seus resultados — distribuições, intervalos credíveis e probabilidades preditivas a posteriori — tornam a incerteza explícita, o que é essencial para muitos sistemas de IA que operam sob ambiguidade, ruído e dados limitados.

Para uma base mais sólida, combine este artigo com Variáveis Aleatórias e Distribuições, Estimação e Teste de Hipóteses e Critérios de Informação.