Modelos Bayesianos

O que “Modelos Bayesianos” significam em aprendizado de máquina (machine learning)

Um modelo bayesiano (Bayesian model) trata quantidades desconhecidas — parâmetros do modelo, variáveis latentes (latent variables) e até observações futuras — como variáveis aleatórias (random variables). Em vez de produzir um único conjunto “melhor” de parâmetros (uma estimativa pontual (point estimate)), a modelagem bayesiana (Bayesian modeling) produz uma distribuição (distribution) sobre parâmetros e previsões, condicionada aos dados observados.

Essa mudança — de pontos para distribuições — é a ideia central por trás de:

MAP (máximo a posteriori, Maximum a Posteriori): uma estimativa pontual com sabor bayesiano
Bayes completo (full Bayes): usar a distribuição posterior inteira para inferência e predição

A modelagem bayesiana é amplamente usada quando você se importa com incerteza (uncertainty), tem poucos dados, quer uma regularização (regularization) com fundamento teórico, ou precisa de previsões probabilísticas coerentes.

A receita bayesiana: priori → verossimilhança → posterior

A inferência bayesiana (Bayesian inference) se baseia na regra de Bayes (Bayes’ rule). Suponha:

Dados: (D = {(x_i, y_i)}_{i=1}^n)
Parâmetros: (\theta)
Verossimilhança: (p(D \mid \theta))
Distribuição a priori (prior): (p(\theta))

Então, a posterior é:

[ p(\theta \mid D) = \frac{p(D \mid \theta),p(\theta)}{p(D)} ]

em que o denominador é a evidência (evidence) (também conhecida como verossimilhança marginal (marginal likelihood)):

[ p(D) = \int p(D \mid \theta)p(\theta),d\theta ]

O que cada parte significa

Distribuição a priori (p(\theta)): codifica crenças/restrições antes de ver os dados (por exemplo, “pesos provavelmente são pequenos”).
Verossimilhança (p(D \mid \theta)): como o modelo explica os dados dados os parâmetros.
Posterior (p(\theta \mid D)): crença atualizada após observar os dados.
Evidência (p(D)): normaliza a posterior e é crucial para comparação bayesiana de modelos.

Isso contrasta com muitos fluxos de trabalho padrão em aprendizado de máquina (por exemplo, treinar Regressão Linear/Logística com Descida do Gradiente) que retornam um único vetor de parâmetros (\hat{\theta}).

Estimativas pontuais em aprendizado de máquina: EMV e MRE

A maioria dos procedimentos comuns de treinamento em aprendizado de máquina calcula uma estimativa pontual resolvendo um problema de otimização. Para modelos probabilísticos, o exemplo clássico é a estimação de máxima verossimilhança (maximum likelihood estimation, MLE):

[ \hat{\theta}{\text{MLE}} = \arg\max{\theta} p(D \mid \theta) ]

De forma equivalente, minimizando a log-verossimilhança negativa:

[ \hat{\theta}{\text{MLE}} = \arg\min{\theta} -\log p(D \mid \theta) ]

De modo mais geral em aprendizado de máquina, isso costuma ser formulado como minimização do risco empírico (empirical risk minimization, ERM): minimizar uma perda média sobre o conjunto de dados. Em geral, adiciona-se regularização como um termo de penalidade.

MAP: uma estimativa pontual bayesiana

O MAP troca “maximizar a verossimilhança” por “maximizar a posterior”:

[ \hat{\theta}{\text{MAP}} = \arg\max{\theta} p(\theta \mid D) ]

Usando a regra de Bayes e descartando constantes em relação a (\theta):

[ \hat{\theta}{\text{MAP}} = \arg\max{\theta} \log p(D \mid \theta) + \log p(\theta) ]

MAP como EMV regularizada (uma conexão prática fundamental)

MAP se parece exatamente com EMV mais um regularizador. Muitos regularizadores padrão correspondem a distribuições a priori específicas:

Distribuição a priori Gaussiana (Gaussian prior): (\theta \sim \mathcal{N}(0, \sigma^2 I))
(\Rightarrow) (-\log p(\theta) \propto |\theta|_2^2) (regularização L2 (L2 regularization) / decaimento de pesos (weight decay))
Distribuição a priori de Laplace (Laplace prior): (p(\theta) \propto \exp(-\lambda |\theta|_1))
(\Rightarrow) regularização L1 (L1 regularization) (esparsidade)

Assim, se você treina regressão logística com regularização L2, pode interpretá-la como MAP sob uma distribuição a priori Gaussiana.

Quando MAP é útil

MAP costuma ser atraente porque:

Pode ser treinado com ferramentas padrão de otimização (assim como em aprendizado de máquina não bayesiano).
Fornece um único modelo que você pode colocar em produção com facilidade.
Introduz conhecimento prévio / viés indutivo de forma fundamentada.

Mas MAP ainda retorna um único valor de parâmetro, o que significa que ele não representa completamente a incerteza sobre (\theta).

Bayes completo: integrar sobre a incerteza em vez de escolher um único \(\theta\)

Na inferência bayesiana completa, você mantém a posterior inteira (p(\theta \mid D)). As previsões para uma nova entrada (x_*) vêm da distribuição preditiva posterior (posterior predictive distribution):

[ p(y_* \mid x_*, D) = \int p(y_* \mid x_*, \theta), p(\theta \mid D), d\theta ]

Essa integral é o coração do “Bayes completo”. Ela expressa:

Incerteza aleatória (aleatoric uncertainty): ruído irredutível nos dados (na verossimilhança)
Incerteza epistêmica (epistemic uncertainty): incerteza sobre os parâmetros devido a dados limitados (na posterior)

Métodos de estimativa pontual (MLE/MAP) em geral ignoram a incerteza epistêmica no momento da predição.

Consequência prática: incerteza melhor calibrada (quando bem feita)

O Bayes completo pode produzir distribuições preditivas que refletem a incerteza adequadamente, o que importa para:

tomada de decisão sob risco (medicina, finanças)
aprendizado ativo (active learning) e exploração
detecção de anomalias (anomaly detection) e detecção fora da distribuição (out-of-distribution detection)
previsão com faixas de incerteza

(Veja também Processos Gaussianos (Gaussian Processes), que são um exemplo canônico de aprendizado de funções totalmente bayesiano.)

Um exemplo concreto: regressão linear bayesiana (MAP vs Bayes completo)

Considere um modelo de regressão linear:

[ y = x^\top w + \epsilon,\quad \epsilon \sim \mathcal{N}(0,\sigma^2) ]

Priori

Deixe os pesos terem uma distribuição a priori Gaussiana:

[ w \sim \mathcal{N}(0, \tau^2 I) ]

Solução MAP

MAP maximiza (p(w \mid D)), equivalente a minimizar:

[ \frac{1}{2\sigma^2}\sum_i (y_i - x_i^\top w)^2 + \frac{1}{2\tau^2}|w|_2^2 ]

Isso é exatamente regressão ridge (ridge regression).

Solução de Bayes completo

Com verossimilhança Gaussiana e priori Gaussiana, a posterior sobre (w) também é Gaussiana:

[ p(w \mid D) = \mathcal{N}(w \mid \mu_w, \Sigma_w) ]

As previsões se tornam:

Predição média: ( \mathbb{E}[y_* \mid x_*, D] = x_*^\top \mu_w )
A variância preditiva inclui tanto o ruído quanto a incerteza nos parâmetros: [ \mathrm{Var}(y_* \mid x_*, D) = \sigma^2 + x_*^\top \Sigma_w x_* ]

Esse termo extra (x_*^\top \Sigma_w x_*) é incerteza epistêmica; ele tipicamente cresce para entradas diferentes daquelas que você já observou.

Esboço de implementação baseada em amostragem

Em muitos modelos, a posterior não está disponível em forma fechada, mas você pode aproximar a distribuição preditiva amostrando:

# Conceptual pseudocode
samples = sample_posterior(p_theta_given_D, num_samples=2000)  # e.g., MCMC/VI output

preds = []
for theta in samples:
    preds.append(model_predictive_distribution(x_star, theta))  # returns distribution or samples

# Aggregate to approximate posterior predictive
posterior_predictive = mixture(preds)
mean = posterior_predictive.mean()
interval = posterior_predictive.credible_interval(0.95)

Esse é o fluxo de trabalho de “Bayes completo”: tirar a média das previsões sobre configurações plausíveis de parâmetros, em vez de selecionar uma única configuração “melhor”.

Modelos bayesianos vs “saídas probabilísticas” de modelos com estimativa pontual

É comum confundir “meu modelo produz probabilidades” com “meu modelo é bayesiano”.

Um classificador neural padrão com saídas softmax produz probabilidades (p(y\mid x,\hat{\theta})), mas (\hat{\theta}) é fixo.
Um classificador bayesiano produz uma preditiva posterior (p(y\mid x, D)) que integra sobre (\theta).

Isso é fundamentalmente diferente:

Modelo probabilístico com estimativa pontual:
[ p(y\mid x, \hat{\theta}) ]
Bayes completo:
[ p(y\mid x, D) = \int p(y\mid x,\theta),p(\theta\mid D),d\theta ]

Na prática, modelos com estimativa pontual podem ser descalibrados (miscalibrated) (excessivamente confiantes), especialmente sob mudança de distribuição (dataset shift). O Bayes completo frequentemente ajuda, embora não seja uma solução mágica. (Relacionado: Calibração de Modelos (Model Calibration).)

Inferência: por que Bayes completo é mais difícil do que MAP

MAP reduz a inferência bayesiana a otimização (optimization). Bayes completo exige integração (integration) — frequentemente intratável em alta dimensão.

Métodos comuns de inferência aproximada

Monte Carlo via Cadeia de Markov (Markov Chain Monte Carlo, MCMC)
Sorteie amostras (\theta^{(s)} \sim p(\theta\mid D)) e aproxime integrais por médias de Monte Carlo.
- Prós: assintoticamente exato (sob condições)
- Contras: pode ser lento, difícil de escalar para grandes redes neurais
  Relacionado: Monte Carlo via Cadeia de Markov (Markov Chain Monte Carlo)
Inferência variacional (Variational Inference, VI)
Aproxima a posterior com uma distribuição mais simples (q(\theta)) minimizando divergência (frequentemente KL).
- Prós: escalável, funciona bem em modelos grandes
- Contras: viés de aproximação; a incerteza frequentemente é subestimada
  Relacionado: Inferência Variacional (Variational Inference)
Aproximação de Laplace (Laplace approximation)
Aproxima a posterior próxima do MAP como Gaussiana usando curvatura (Hessiana).
- Prós: relativamente simples, usa otimização + informação de segunda ordem
- Contras: ruim para posteriors multimodais ou altamente não Gaussianas
Propagação de Expectativa (Expectation Propagation, EP) e outros métodos de passagem de mensagens
Úteis em alguns modelos probabilísticos estruturados.

Bayes empírico (Empirical Bayes) (um meio-termo pragmático)

O Bayes empírico estima hiperparâmetros da priori (por exemplo, (\tau)) a partir dos dados — frequentemente via maximização da evidência (evidence maximization) — e então realiza inferência bayesiana condicionada a essas estimativas. Não é totalmente bayesiano (porque “encaixa” os hiperparâmetros), mas pode ser eficaz.

MAP vs Bayes completo: o que você ganha e o que você paga

Resumo das diferenças

MAP
- Saída: um vetor de parâmetros (\hat{\theta}_{MAP})
- Computação: otimização
- Interpretação: EMV regularizada
- Incerteza: não é representada diretamente (a menos que você adicione aproximações extras)
Bayes completo
- Saída: posterior (p(\theta\mid D))
- Computação: integração (tipicamente aproximada)
- Interpretação: inferência consciente de incerteza
- Incerteza: representada naturalmente e propagada às previsões

Quando MAP frequentemente é “suficiente”

MAP pode ser um bom padrão quando:

Você tem muitos dados e a posterior se concentra fortemente ao redor de um modo.
Você precisa principalmente de forte desempenho preditivo, não de estimativas de incerteza.
Você precisa de treinamento/inferência rápidos e implantação simples.
O modelo é muito grande (redes profundas (deep nets)) e o Bayes completo é caro demais.

Por isso a maioria dos sistemas de aprendizado de máquina em produção é baseada em estimativas pontuais (incluindo muitas Árvores de Decisão e Comitês (Decision Trees & Ensembles)).

Quando Bayes completo vale a pena

Bayes completo muitas vezes vale a complexidade extra quando:

Poucos/médios dados: a incerteza nos parâmetros é significativa.
Decisões de alto impacto: é preciso incerteza confiável.
Aprendizado online/exploração: bandits (bandits), otimização bayesiana.
Relacionado: Otimização Bayesiana (Bayesian Optimization)
Dados hierárquicos: agregação de informação entre grupos (por exemplo, muitas lojas, muitos usuários).
Cenários científicos/causais: interpretabilidade e incerteza importam.

Exemplos práticos no aprendizado de máquina moderno

Exemplo 1: testes A/B (A/B testing) com modelos bayesianos hierárquicos

Suponha que você rode experimentos em muitos segmentos de usuários ou mercados. Um modelo bayesiano hierárquico (hierarchical Bayesian model) pode:

compartilhar força estatística entre grupos (“agrupamento parcial (partial pooling)”)
evitar estimativas extremas para segmentos pequenos
produzir distribuições posteriores para lift, permitindo decisões como:
- (P(\text{lift} > 0 \mid D))
- perda esperada sob rollout vs holdout

Isso costuma ser mais acionável do que um único valor-p (p-value) ou uma estimativa pontual.

Exemplo 2: recomendadores com incerteza

Em Sistemas de Recomendação (Recommender Systems), a fatoração de matrizes (matrix factorization) bayesiana coloca priors sobre incorpulações (embeddings) de usuário e item, gerando recomendações conscientes de incerteza. Isso ajuda com:

itens/usuários de início a frio (cold-start) (alta incerteza)
políticas de exploração (exploration policies) (recomendar itens incertos para aprender mais rápido)
robustez a observações esparsas (sparse observations)

Exemplo 3: previsão de séries temporais com intervalos críveis

Em Previsão de Séries Temporais, modelos bayesianos de espaço de estados (state-space models) e séries temporais estruturais bayesianas (Bayesian structural time series) produzem distribuições de previsão — não apenas previsões pontuais — apoiando planejamento consciente de risco.

Exemplo 4: processos gaussianos como “Bayes completo sobre funções”

Processos Gaussianos colocam uma priori diretamente sobre funções (f(x)), produzindo distribuições posteriores sobre funções após observar dados. Eles são notoriamente eficazes para:

regressão com poucos dados
aprendizado ativo consciente de incerteza
otimização bayesiana

Eles também ilustram como a modelagem bayesiana pode codificar estrutura (suavidade, periodicidade) via funções kernel (kernels).

Exemplo 5: redes neurais bayesianas (BNNs)

Redes neurais bayesianas (Bayesian neural networks, BNNs) colocam distribuições sobre os pesos, aproximando (p(\theta\mid D)) com métodos como VI, Laplace ou variantes de MCMC. Na prática, “aprendizado profundo bayesiano (Bayesian deep learning)” frequentemente usa aproximações (por exemplo, VI de campo médio (mean-field VI)) e pode não capturar perfeitamente a incerteza, mas ainda pode melhorar robustez e calibração em alguns cenários.

Modelagem bayesiana e seleção de modelos: evidência vs validação

O aprendizado de máquina com estimativa pontual tipicamente escolhe modelos usando métricas de validação ou Validação Cruzada (Cross-Validation). A modelagem bayesiana também oferece comparação bayesiana de modelos via evidência (p(D)), automaticamente equilibrando ajuste e complexidade (“navalha de Occam (Occam’s razor)”).

Na prática, a evidência pode ser difícil de calcular com precisão para modelos grandes, mas é central em fluxos de trabalho bayesianos clássicos.

Equívocos comuns e armadilhas

“Bayesiano significa subjetivo”

Priori de fato codificam suposições, mas o mesmo vale para todas as escolhas de modelagem (arquitetura, regularização, seleção de atributos). Métodos bayesianos tornam as suposições explícitas e as atualizam com dados.

“MAP é totalmente bayesiano”

MAP usa uma priori, mas descarta a incerteza da posterior ao retornar um único modo. É melhor vê-lo como otimização regularizada com uma interpretação bayesiana.

“Bayes completo sempre melhora a acurácia”

Não necessariamente. Se o modelo estiver mal especificado ou a aproximação for ruim, Bayes completo pode não ajudar. Sua vantagem consistente é quantificação de incerteza, não uma garantia de menor erro.

“Modelos bayesianos são lentos demais para a prática”

Alguns são — mas muitas ideias bayesianas são altamente práticas:

MAP como regularização (já onipresente)
posteriors aproximadas via VI
modelos lineares bayesianos sobre embeddings aprendidos
processos gaussianos e modelos hierárquicos em regimes de poucos/médios dados

Como escolher: um checklist prático

Escolha MAP (ou estimativas pontuais padrão) quando você quer:

simplicidade, velocidade, implantação fácil
forte desempenho de baseline
regularização como viés indutivo
incerteza não é central para decisões

Escolha Bayes completo / Bayes aproximado (approximate Bayes) quando você precisa de:

previsões conscientes de incerteza (intervalos críveis, risco)
melhor comportamento com poucos dados
agregação fundamentada entre grupos (hierarquias)
estratégias de exploração (bandits, otimização bayesiana)
interpretabilidade da incerteza em parâmetros e previsões

Relação com outras famílias de modelos nesta wiki

Se você quer classificadores probabilísticos simples com fortes suposições de independência: veja k-NN, Bayes Ingênuo (Naive Bayes) (nota: “Naive Bayes” é bayesiano na derivação, mas tipicamente é treinado com estimativas pontuais para suas probabilidades).
Se você quer incerteza como uma saída de primeira classe em regressão e aprendizado de funções: veja Processos Gaussianos.
Se você precisa principalmente de alta performance em dados tabulares sem incerteza explícita: veja Árvores de Decisão e Ensembles.
Para modelagem paramétrica de base e a conexão MAP-como-regularização: veja Regressão Linear/Logística.

Principais conclusões

A modelagem bayesiana difere do aprendizado de máquina com estimativa pontual ao representar incerteza com distribuições, não com valores únicos de parâmetros.
MAP é uma estimativa pontual bayesiana — muitas vezes equivalente a EMV regularizada.
Bayes completo usa a posterior inteira, produzindo distribuições preditivas posteriores que propagam a incerteza nos parâmetros.
A principal troca é computação e complexidade (integração/aproximação) versus inferência consciente de incerteza.
A prática moderna frequentemente mistura abordagens: estimativas pontuais para escala, métodos bayesianos onde incerteza e eficiência de dados importam mais.