Teoria Bayesiana da Decisão

Visão geral

Teoria da Decisão Bayesiana (Bayesian Decision Theory, BDT) é a estrutura que conecta inferência probabilística (probabilistic inference) (“o que é provavelmente verdadeiro?”) à seleção de ação (action selection) (“o que devo fazer?”) sob incerteza. Ela formaliza a tomada de decisão com:

Incerteza representada por probabilidades (tipicamente posteriores bayesianas)
Consequências representadas por uma função de perda (loss function) (ou, de forma equivalente, uma função de utilidade)
Ações ótimas escolhidas ao minimizar a perda esperada (expected loss) (maximizando a utilidade esperada)

Na IA/ML moderna, a teoria da decisão bayesiana explica por que e quando faz sentido:

Converter probabilidades previstas em decisões rígidas via limiares
Usar limiares diferentes para custos diferentes (por exemplo, fraude vs. benigno)
Preferir certas estimativas pontuais (média/mediana/MAP) dependendo da perda
Incorporar priors e incerteza do modelo na tomada de decisão

Ela também esclarece uma ideia importante: um modelo não é “ótimo” isoladamente — a otimalidade depende do objetivo de decisão.

Este artigo pressupõe familiaridade básica com probabilidade a partir de Probabilidade e Estatística.

Ingredientes centrais: incerteza, ações e preferências

Estados do mundo e observações

Seja:

(x) o dado observado (atributos, medições, evidências)
(\theta) um parâmetro desconhecido (por exemplo, prevalência de doença, pesos do modelo) ou, de forma mais geral, o “estado do mundo”
(y) um rótulo/desfecho desconhecido (por exemplo, classe)

A inferência bayesiana produz uma distribuição posterior como:

(p(\theta \mid x)) (incerteza do parâmetro), ou
(p(y \mid x)) (incerteza preditiva), frequentemente derivada de um modelo.

A teoria da decisão bayesiana começa depois que você tem uma distribuição de probabilidade, perguntando: dada a incerteza, qual ação é melhor?

Ações

Seja (a \in \mathcal{A}) uma ação, como:

Prever um rótulo de classe (a \in {0,1})
Decidir “tratar” vs “não tratar”
Escolher um preço, alocar recursos, disparar um alarme, abster-se etc.

Perda e utilidade

Uma função de perda (L(a, s)) mede o quão ruim é a ação (a) quando o estado verdadeiro é (s) (onde (s) pode ser (y) ou (\theta)).

Menor perda é melhor.
Uma função de utilidade (U(a,s)) é o ponto de vista oposto (maior é melhor).
Elas são equivalentes até sinal/deslocamento: maximizar utilidade esperada é minimizar perda esperada.

Exemplos de perda:

Perda 0–1 para classificação: perda 0 se correto, 1 se errado
Perda assimétrica: falsos negativos custam mais do que falsos positivos
Perda por erro quadrático em regressão: (L(a,y)=(a-y)^2)

Funções de perda codificam o que você realmente se importa. Por isso a teoria da decisão é fundamental: ela força você a especificar preferências em vez de otimizar implicitamente acurácia.

Risco: perda esperada como objetivo

Como o estado verdadeiro é desconhecido, avaliamos ações por sua perda esperada.

Risco condicional (posterior)

Dada a observação (x), a perda esperada posterior da ação (a) é:

[ \rho(a \mid x) = \mathbb{E}[L(a, S) \mid x] ]

Casos comuns:

A decisão depende do rótulo desconhecido (y): [ \rho(a \mid x) = \sum_{y} L(a,y), p(y \mid x) ]
A decisão depende do parâmetro desconhecido (\theta): [ \rho(a \mid x) = \int L(a,\theta), p(\theta \mid x), d\theta ]

Ação de Bayes (regra de decisão ótima)

A regra de decisão de Bayes (Bayes decision rule) escolhe a ação que minimiza a perda esperada posterior:

[ a^*(x) = \arg\min_{a \in \mathcal{A}} \rho(a \mid x) ]

Este é o resultado central: inferir uma distribuição e, então, agir minimizando a perda esperada sob essa distribuição.

Risco de Bayes (desempenho esperado global)

Se você também fizer a média sobre possíveis (x), obtém o risco de Bayes (Bayes risk), que avalia uma regra de decisão inteira (\delta(x)):

[ R(\delta) = \mathbb{E}_{x}\left[\mathbb{E}[L(\delta(x), S)\mid x]\right] ]

A regra de Bayes minimiza o risco de Bayes entre todas as regras (dado o modelo e o prior).

Estimação pontual como um caso especial da teoria da decisão bayesiana

A teoria da decisão bayesiana explica por que diferentes “melhores estimativas” (média/mediana/moda) aparecem em ML: elas são ótimas para perdas diferentes.

Suponha que você observe (x) e queira produzir um único número (a) para estimar (y).

Perda por erro quadrático → média posterior

Se (L(a,y)=(a-y)^2), então:

[ a^*(x) = \mathbb{E}[y \mid x] ]

Assim, a média posterior é ótima sob erro quadrático.

Perda por erro absoluto → mediana posterior

Se (L(a,y)=|a-y|), então a ação ótima é a mediana posterior.

Perda 0–1 (correspondência exata) → moda posterior (MAP para discreto)

Se (y) é discreto e (L(a,y)=\mathbf{1}[a \neq y]), a ação ótima é:

[ a^*(x)=\arg\max_y p(y \mid x) ]

Esta é a decisão de máximo a posteriori (maximum a posteriori, MAP) para (y). (Para parâmetros (\theta), o MAP depende da parametrização e nem sempre é um resumo robusto; a teoria da decisão esclarece que MAP é apenas “ótimo sob perda 0–1 em (\theta)” — um objetivo muito específico.)

Classificação: classificadores de Bayes e decisões sensíveis a custo

Perda 0–1 e o classificador ótimo de Bayes

Para classificação multiclasse com perda 0–1:

[ L(a,y) = \begin{cases} 0 & a=y\ 1 & a\neq y \end{cases} ]

A perda esperada posterior torna-se:

[ \rho(a\mid x) = 1 - p(y=a \mid x) ]

Portanto, minimizar (\rho(a\mid x)) é equivalente a escolher a classe com maior probabilidade posterior:

[ a^*(x)=\arg\max_k p(y=k \mid x) ]

Este é o classificador de Bayes (Bayes classifier) clássico. Sua taxa de erro é o limite inferior teórico (o erro de Bayes (Bayes error)) dada a verdadeira distribuição geradora dos dados.

Custos de classificação incorreta desiguais (exemplo binário)

Sistemas reais frequentemente têm consequências assimétricas:

Um falso negativo em diagnóstico médico pode ser muito pior do que um falso positivo.
Em detecção de fraude, deixar passar uma fraude pode custar mais do que sinalizar uma transação legítima.

Seja (y \in {0,1}) (0 = negativo, 1 = positivo). As ações são (a \in {0,1}). Defina:

(C_{\text{FP}} = L(1,0)): custo de falso positivo
(C_{\text{FN}} = L(0,1)): custo de falso negativo
Assuma (L(0,0)=L(1,1)=0) por simplicidade

Então:

Perda esperada se você prever positivo ((a=1)): [ \rho(1\mid x)=C_{\text{FP}} , p(y=0\mid x)=C_{\text{FP}}(1-p) ]
Perda esperada se você prever negativo ((a=0)): [ \rho(0\mid x)=C_{\text{FN}} , p(y=1\mid x)=C_{\text{FN}}p ] onde (p = p(y=1\mid x)).

Escolha (a=1) quando: [ C_{\text{FP}}(1-p) < C_{\text{FN}}p \quad \Longleftrightarrow \quad p > \frac{C_{\text{FP}}}{C_{\text{FP}}+C_{\text{FN}}} ]

Assim, o “limiar de probabilidade” não é necessariamente 0,5 — ele é definido pelos custos.

Exemplo numérico

Se (p(y=1\mid x)=0.3), (C_{\text{FP}}=1), (C_{\text{FN}}=9):

Perda ao prever positivo: (1 \cdot 0.7 = 0.7)
Perda ao prever negativo: (9 \cdot 0.3 = 2.7)

Mesmo com apenas 30% de probabilidade posterior, é ótimo prever positivo porque falsos negativos são muito mais custosos.

Opção de rejeitar/abster-se (“encaminhar para humano”)

Muitos sistemas de alto impacto permitem uma terceira ação: abster-se e escalar para um humano.

Seja o conjunto de ações (\mathcal{A}={0,1,\text{reject}}), e defina:

(L(\text{reject},y)=C_R) (custo fixo de encaminhar)

Então: [ a^*(x)=\arg\min\left{\rho(0\mid x),\rho(1\mid x),C_R\right} ]

Isso produz uma regra de abstenção fundamentada: rejeitar quando o modelo estiver incerto demais ou quando o risco for alto demais em relação ao custo de escalonamento.

Da inferência à ação: distribuições preditivas e incerteza do modelo

Agir sobre parâmetros vs agir sobre desfechos

Às vezes a perda depende de parâmetros desconhecidos (\theta), mas as ações frequentemente dependem de desfechos futuros (y). Na modelagem bayesiana, você tipicamente calcula uma distribuição preditiva posterior (posterior predictive distribution):

[ p(y_{\text{new}} \mid x) = \int p(y_{\text{new}} \mid \theta, x), p(\theta \mid x), d\theta ]

Então as decisões são tomadas usando (p(y_{\text{new}} \mid x)).

Isso importa porque a incerteza do parâmetro deve se propagar para as previsões, especialmente com dados limitados. A teoria da decisão bayesiana naturalmente incentiva usar a distribuição preditiva completa, em vez de um único parâmetro de melhor ajuste.

Média bayesiana de modelos como ferramenta de decisão

Se você tiver múltiplos modelos plausíveis (M), métodos bayesianos podem fazer a média entre eles:

[ p(y\mid x) = \sum_M p(y\mid x,M), p(M\mid x) ]

A teoria da decisão então se aplica como de costume. Na prática, isso pode reduzir excesso de confiança e melhorar decisões sob incerteza.

Computação prática: como minimizar a perda esperada

Soluções em forma fechada (quando disponíveis)

Alguns posteriores e perdas geram ações de Bayes analíticas (por exemplo, posterior Gaussiano + perda quadrática → média). Quando há forma fechada, a BDT é fácil de implementar e interpretar.

Estimação Monte Carlo da perda esperada

Frequentemente, a integral/soma da perda esperada posterior não é tratável. Você pode aproximá-la por amostragem:

[ \rho(a\mid x) = \mathbb{E}{S\sim p(S\mid x)}[L(a,S)] \approx \frac{1}{N}\sum{i=1}^N L(a, s^{(i)}) ]

É aqui que Métodos de Monte Carlo e Monte Carlo via Cadeias de Markov (Markov Chain Monte Carlo, MCMC) tornam-se ferramentas práticas.

Exemplo (pseudocódigo tipo Python)

import numpy as np

def bayes_action(actions, posterior_samples, loss_fn):
    # posterior_samples: array of sampled states s^(i) ~ p(S | x)
    risks = []
    for a in actions:
        risks.append(np.mean([loss_fn(a, s) for s in posterior_samples]))
    return actions[int(np.argmin(risks))]

Visão de otimização

Se as ações são contínuas (por exemplo, definir um preço (a \in \mathbb{R})), você pode minimizar a perda esperada com métodos baseados em gradiente, conectando a BDT a Otimização. Para perdas diferenciáveis, você frequentemente consegue computar gradientes de (\mathbb{E}[L]) via reparametrização ou estimadores de função-score.

Escolhendo e validando a função de perda

Um ponto sutil, mas crucial: a função de perda é parte da especificação do problema, não algo aprendido a partir dos dados (a menos que você modele preferências explicitamente).

Armadilhas comuns incluem:

Otimizar acurácia quando os custos são assimétricos
Usar AUC como se implicasse diretamente decisões ótimas (não implica sem um modelo de custos)
Ignorar mudança de distribuição: seu (p(y\mid x)) pode mudar em produção, alterando ações ótimas
Tratar escores previstos como probabilidades sem calibração

O desenho da perda também é onde entram ética, segurança e restrições de negócio: a BDT torna essas trocas explícitas.

Relação com objetivos de treinamento e pontuação probabilística

A BDT é frequentemente apresentada como “decisão dado um posterior”, mas ela também se relaciona a como treinamos modelos.

Regras de pontuação próprias (estimar probabilidades bem)

Se você quer boas decisões para muitos custos downstream possíveis, frequentemente você quer probabilidades bem calibradas. Treinar com perda logarítmica (log loss) (entropia cruzada) está intimamente relacionado a maximizar verossimilhança e a conceitos em Teoria da Informação.

Entropia cruzada/perda logarítmica incentiva estimativas de probabilidade precisas (sob certas suposições).
Boas estimativas de probabilidade permitem aplicar diferentes matrizes de custo depois sem retreinamento — basta mudar a regra de decisão.

Essa separação é valiosa na prática:

Treine um modelo para estimar (p(y\mid x))
Escolha ações minimizando a perda esperada para a aplicação atual

Aplicações práticas

Diagnóstico médico e triagem

(x): sintomas + resultados de testes
(y): doença presente/ausente
Ações: tratar, não tratar, pedir mais testes, encaminhar a especialista
A perda inclui danos do tratamento, diagnóstico perdido, custo de testes, desfechos do paciente

A BDT sustenta:

Limiar diferente por condição com base na gravidade
Abstenção para encaminhar casos incertos
Modelagem explícita de prevalência via priors

Detecção de fraude e controles de risco

Falsos positivos causam atrito com clientes e custos de suporte.
Falsos negativos causam perdas financeiras diretas.

A BDT fornece um limiar ótimo de alerta com base em (C_{\text{FP}}) e (C_{\text{FN}}), e pode incorporar custos variáveis (por exemplo, valor da transação) tornando a perda dependente do contexto: [ L(a,y; x) \text{ onde } x \text{ inclui valor, tipo de cliente etc.} ]

Filtro de spam / moderação de conteúdo

Custos dependem de experiência do usuário e política:

Falsos positivos (bloquear mensagens legítimas) são muito visíveis
Falsos negativos (deixar spam passar) degradam a confiança

A BDT lida naturalmente com:

Limiares por usuário
Ação de “quarentena” (opção de rejeição)
Utilidades diferentes para tipos de conteúdo diferentes

Sistemas autônomos e casos de segurança

Em robótica e direção autônoma, decisões são sequenciais, mas a BDT de passo único ainda aparece dentro de subsistemas:

Fusão de sensores produz distribuições sobre localizações de objetos
O planejador escolhe uma manobra conservadora com base na perda esperada de colisão

A tomada de decisão sequencial completa generaliza a BDT para estruturas como (PO)MDPs, frequentemente discutidas em Aprendizado por Reforço. A BDT é a base de passo único: agir para minimizar a perda esperada sob seu estado de crença.

Desenho experimental bayesiano e aprendizado ativo

Quando você pode escolher quais dados coletar a seguir (qual experimento rodar, qual rótulo consultar), você pode definir uma utilidade para a informação obtida ou para o erro reduzido e escolher a próxima ação maximizando a utilidade esperada sob a incerteza atual. Isso conecta inferência bayesiana, teoria da decisão e métodos de amostragem.

Principais conclusões

A Teoria da Decisão Bayesiana conecta probabilidades a ações. A inferência fornece (p(\cdot\mid x)); a teoria da decisão escolhe (a^*(x)) minimizando a perda esperada.
Perda/utilidade codifica o que importa. Custos diferentes levam a decisões ótimas diferentes — mesmo com as mesmas saídas do modelo.
Muitos estimadores familiares são ótimos de Bayes para perdas específicas: média (erro quadrático), mediana (erro absoluto), MAP (perda 0–1).
Classificação sensível a custo é consequência direta da BDT: limiares derivam de custos, não de uma regra padrão de 0,5.
A computação frequentemente usa amostragem: perdas esperadas podem ser estimadas com Métodos de Monte Carlo ou Monte Carlo via Cadeias de Markov (Markov Chain Monte Carlo, MCMC).
Treinamento e decisão podem ser separados: aprenda boas probabilidades (frequentemente via perda logarítmica) e aplique a regra de decisão correta depois.

A teoria da decisão bayesiana é fundamental porque explicita uma ideia simples, porém poderosa: a melhor previsão é aquela que leva à melhor decisão sob incerteza.