Modelos Gráficos Probabilísticos

Visão geral

Modelos Gráficos Probabilísticos (Probabilistic Graphical Models, PGMs) são uma família de modelos que representam uma distribuição de probabilidade conjunta (joint probability distribution) usando um grafo (graph) para codificar estrutura — especialmente relações de independência condicional (conditional independence). As duas formas mais comuns são:

  • Redes bayesianas (Bayesian networks, Bayes nets): grafos direcionados que fatoram uma distribuição em probabilidades condicionais.
  • Campos aleatórios de Markov (Markov random fields, MRFs): grafos não direcionados que fatoram uma distribuição em funções de compatibilidade (frequentemente chamadas de potenciais).

Modelos gráficos probabilísticos são “representações probabilísticas estruturadas”: em vez de tratar todas as variáveis como interagindo de forma arbitrária (o que normalmente é intratável), eles exploram estrutura para tornar modelagem, inferência (inference) e aprendizado (learning) mais eficientes e interpretáveis.

Eles ficam na interseção entre probabilidade, grafos e algoritmos, e se conectam naturalmente a tópicos como Base de Matemática, Teoria do Aprendizado e (para interpretações causais de modelos direcionados) Inferência Causal.

Por que a estrutura gráfica importa

Suponha que você tenha (n) variáveis discretas, cada uma com (k) estados. Uma tabela conjunta completa requer (k^n) números — exponencial em (n). Modelos gráficos evitam essa explosão ao assumir que cada variável depende apenas de uma pequena vizinhança no grafo.

Dois benefícios-chave:

  1. Compacidade: você armazena fatores locais (tabelas de probabilidade condicional ou potenciais) em vez de uma enorme tabela conjunta.
  2. Raciocínio eficiente: muitas consultas — como probabilidades marginais ou configurações mais prováveis — podem ser computadas usando algoritmos em grafos (exatamente para alguns grafos, aproximadamente para outros).

Conceito central: independência condicional

Um modelo gráfico é, em grande parte, uma máquina para codificar independência condicional. Uma afirmação típica de independência condicional se parece com:

[ X \perp Y \mid Z ]

significando: uma vez que você conhece (Z), aprender (Y) não fornece informação adicional sobre (X).

A estrutura do grafo implica relações de independência condicional:

  • Em redes bayesianas, a independência condicional é lida via d-separação (d-separation).
  • Em campos aleatórios de Markov, a independência condicional é lida via separação no grafo (graph separation) (remover nós de condicionamento rompe caminhos).

Essas propriedades de independência condicional não são apenas filosóficas — elas permitem fatoração e inferência eficiente.

Redes bayesianas (modelos gráficos direcionados)

Definição e fatoração

Uma rede bayesiana é um grafo acíclico direcionado (directed acyclic graph, DAG) em que cada nó é uma variável aleatória. O DAG codifica uma fatoração da distribuição conjunta:

[ P(X_1,\dots,X_n) = \prod_{i=1}^n P(X_i \mid \text{Pa}(X_i)) ]

onde (\text{Pa}(X_i)) são os pais de (X_i) no grafo.

Essa representação é especialmente natural para modelagem generativa (generative modeling): você pode amostrar variáveis em ordem topológica (topological order).

Exemplo: a clássica rede “Sprinkler”

Variáveis:

  • (C): Nublado
  • (S): Aspersor ligado
  • (R): Chuva
  • (W): Grama molhada

Grafo:

  • (C \to S)
  • (C \to R)
  • (S \to W)
  • (R \to W)

Fatoração:

[ P(C,S,R,W) = P(C),P(S\mid C),P(R\mid C),P(W\mid S,R) ]

Intuição:

  • Se o aspersor funciona e se chove dependem ambos da nebulosidade.
  • A grama ficar molhada depende do aspersor e da chuva.

Uma consulta comum: Qual é a probabilidade de ter chovido dado que a grama está molhada?
Isso é (P(R=1 \mid W=1)), o que requer inferência (coberta abaixo).

Independência condicional via d-separação (nível alto)

Redes bayesianas capturam relações de independência condicional como:

  • (S \perp R \mid C) (aspersor e chuva são independentes dado nebulosidade)

Mas condicionar também pode criar dependências, por exemplo “explicação alternativa” (explaining away):

  • Se (W) é observado, então (S) e (R) tornam-se dependentes: aprender que choveu torna o aspersor menos provável (já que qualquer um dos dois poderia explicar a grama molhada).

Esse padrão de “explicação alternativa” é uma marca registrada de modelos direcionados.

Cobertor de Markov (localidade de dependência)

Para um nó (X) em uma rede bayesiana, seu cobertor de Markov (Markov blanket) — seus pais, seus filhos e os outros pais de seus filhos — é suficiente para predizê-lo:

[ P(X \mid \text{all others}) = P(X \mid \text{MarkovBlanket}(X)) ]

Isso é útil em seleção de atributos, inferência local e alguns algoritmos de aprendizado.

Campos aleatórios de Markov (modelos gráficos não direcionados)

Definição e fatoração

Um campo aleatório de Markov é um grafo não direcionado (undirected graph) em que arestas (ou cliques) indicam interações probabilísticas diretas. A distribuição conjunta se fatoriza sobre cliques:

[ P(X_1,\dots,X_n) = \frac{1}{Z} \prod_{c \in \mathcal{C}} \psi_c(X_c) ]

  • (\psi_c) é uma função potencial (potential function) sobre as variáveis do clique (X_c)
  • (Z) é a função de partição (partition function), garantindo normalização:

[ Z = \sum_{x_1,\dots,x_n}\prod_{c}\psi_c(x_c) ]

Ao contrário de redes bayesianas, potenciais não são necessariamente probabilidades; eles codificam compatibilidade relativa.

Exemplo: um modelo de Ising (MRF par-a-par)

Um campo aleatório de Markov comum é um modelo de grade binária para remoção de ruído ou suavização espacial:

  • Cada pixel/rótulo (X_i \in {-1, +1})
  • Pixels vizinhos preferem concordar

Uma forma típica:

[ P(\mathbf{x}) \propto \exp\left(\sum_i h_i x_i + \sum_{(i,j)\in E} J_{ij} x_i x_j\right) ]

  • (h_i) cria viés em nós individuais
  • (J_{ij}) acopla vizinhos

Esse modelo expressa a ideia de que rótulos próximos devem ser semelhantes — útil em segmentação de imagens, estatística espacial e cenários de correção de erros.

Independência condicional via separação no grafo

Em um grafo não direcionado, (A) é condicionalmente independente de (B) dado (S) se todo caminho de (A) até (B) passa por (S).

Isso costuma ser intuitivo para domínios de “suavidade” ou “interação par-a-par”.

Grafos de fatores: uma visão unificadora

Muitos sistemas usam grafos de fatores (factor graphs) para representar modelos direcionados ou não direcionados como um grafo bipartido de:

  • nós de variável
  • nós de fator

Isso é especialmente útil para implementar inferência (por exemplo, propagação de crenças) de forma uniforme.

Uma fatoração como:

[ P(\mathbf{x}) \propto \prod_{k} f_k(\mathbf{x}_k) ]

mapeia diretamente para um grafo de fatores.

Inferência: a principal tarefa computacional

“Inferência” significa responder perguntas sobre a distribuição dada alguma evidência (E=e). Consultas comuns de inferência incluem:

  • Marginais (marginals): (P(X_i \mid e))
  • Condicionais (conditionals): (P(A \mid B=b, e))
  • Estimativa MAP (maximum a posteriori, MAP): (\arg\max_{\mathbf{x}} P(\mathbf{x}\mid e))
  • MPE, explicação mais provável (most probable explanation, MPE): frequentemente usado de forma intercambiável com MAP dependendo de quais variáveis são otimizadas

Inferência é o carro-chefe de modelos gráficos probabilísticos — e também onde aparece a dificuldade computacional.

Inferência exata

A inferência exata é tratável para muitos grafos estruturados como árvore (tree-structured) e se torna cara para grafos com muitos ciclos/cliques.

Métodos-chave:

  • Eliminação de variáveis (Variable elimination, VE)
    Elimina variáveis somando-as para fora enquanto armazena fatores intermediários em cache. A complexidade depende da ordem de eliminação e é exponencial na largura de árvore (treewidth) do grafo.

  • Algoritmo da árvore de junção (junction tree (clique tree) algorithm)
    Converte um grafo em uma árvore de cliques, permitindo passagem de mensagens exata. Novamente, a complexidade depende da largura de árvore.

  • Propagação de crenças (belief propagation, BP) em árvores
    Para modelos em forma de árvore, a propagação de crenças fornece marginais exatas de forma eficiente via mensagens locais.

Inferência aproximada (comum na prática)

Para grafos com ciclos (típicos em aplicações reais), inferência exata pode ser intratável. Aproximações comuns:

  • Propagação de crenças com ciclos (loopy belief propagation)
    Executa propagação de crenças em grafos com ciclos. Não há garantia de convergência, mas frequentemente funciona surpreendentemente bem (por exemplo, em códigos corretores de erros).

  • Amostragem / MCMC (Markov chain Monte Carlo, MCMC)
    Métodos como amostragem de Gibbs aproximam marginais ao gerar amostras da posteriori.

  • Inferência variacional (variational inference)
    Transforma inferência em otimização: escolha uma família mais simples (q(\mathbf{x})) e minimize a divergência (frequentemente KL) em relação à posteriori verdadeira. Campo médio e métodos variacionais estruturados são amplamente usados.

Em sistemas modernos de aprendizado de máquina, métodos variacionais são especialmente importantes porque podem aproveitar otimização baseada em gradientes (frequentemente com diferenciação automática).

Aprendizado em modelos gráficos

Aprendizado pode significar:

  1. Aprendizado de parâmetros (parameter learning): estimar CPDs/potenciais dado um grafo com estrutura fixa.
  2. Aprendizado de estrutura (structure learning): aprender o próprio grafo (quais arestas existem, direções em um DAG).

Aprendizado de parâmetros

Redes bayesianas

  • Se todas as variáveis são observadas e a estrutura é conhecida: parâmetros muitas vezes podem ser estimados com contagens (discreto) ou métodos do tipo regressão (contínuo).
  • Com variáveis ocultas ou dados ausentes: Expectação-Maximização (Expectation-Maximization, EM) é comum.

Campos aleatórios de Markov

  • Aprender exige lidar com a função de partição (Z), o que é caro.
  • Abordagens comuns: pseudo-verossimilhança (pseudo-likelihood), divergência contrastiva (contrastive divergence) (em alguns modelos baseados em energia), ajuste por escore (score matching) ou aproximações usando métodos variacionais.

Aprendizado de estrutura

Aprendizado de estrutura é desafiador porque o espaço de busca de grafos é enorme.

Estratégias comuns:

  • Baseado em pontuação (score-based): definir uma pontuação (BIC, MDL, pontuações bayesianas) e buscar (guloso, tabu etc.).
  • Baseado em restrições (constraint-based): usar testes de independência condicional para restringir arestas possíveis.
  • Híbrido (hybrid): combinar restrições de independência condicional com pontuação.

Quando arestas direcionadas são interpretadas causalmente, o aprendizado de estrutura se sobrepõe conceitualmente com Inferência Causal, mas a identificação causal tipicamente exige suposições mais fortes (intervenções, fidelidade, etc.).

Modelos canônicos como PGMs

Muitos “modelos com nome” em aprendizado de máquina são instâncias de modelos gráficos probabilísticos.

Modelos Ocultos de Markov (Hidden Markov Models, HMMs) e Redes Bayesianas Dinâmicas (Dynamic Bayes Nets)

Um HMM é um modelo gráfico direcionado ao longo do tempo:

  • Estados ocultos (Z_t)
  • Observações (X_t)
  • Arestas: (Z_t \to Z_{t+1}), (Z_t \to X_t)

Tarefas de inferência incluem filtragem (P(Z_t\mid X_{1:t})) e suavização (P(Z_t\mid X_{1:T})), solucionáveis exatamente via o algoritmo forward-backward (forward-backward algorithm) (um caso especial de passagem de mensagens).

Campos Aleatórios Condicionais (Conditional Random Fields, CRFs)

Um CRF é um modelo não direcionado usado para predição estruturada (structured prediction), modelando (P(\mathbf{y}\mid \mathbf{x})) diretamente.

Para rotulação de sequências (marcação em PLN, bioinformática), CRFs de cadeia linear (linear-chain) são populares porque permitem inferência exata via programação dinâmica, ao mesmo tempo em que evitam algumas suposições de independência dos HMMs.

Em sistemas modernos, CRFs frequentemente são combinados com codificadores neurais (neural encoders) (por exemplo, um Transformer (Transformer) produz atributos, e um CRF impõe consistência de rótulos).

Aplicações práticas

Modelos gráficos probabilísticos continuam úteis quando você precisa de incerteza + estrutura + interpretabilidade, particularmente quando conhecimento de domínio sugere um grafo.

Aplicações comuns:

  • Diagnóstico médico e suporte à decisão
    Redes bayesianas podem codificar relações entre doenças, sintomas e testes, permitindo raciocínio a posteriori e análise “e se”.

  • Robótica e rastreamento
    Modelos de espaço de estados (filtros de Kalman, filtros de partículas) podem ser vistos como modelos gráficos probabilísticos para localização, fusão sensorial e rastreamento.

  • Visão computacional (clássica e alguns pipelines modernos)
    Campos aleatórios de Markov/CRFs têm sido usados para remoção de ruído, segmentação, visão estéreo — especialmente quando suavidade espacial importa.

  • Predição estruturada em PLN
    CRFs e modelos relacionados impõem estrutura válida de saída (tags de sequência, spans, restrições).

  • Biologia computacional
    HMMs para análise de sequências; modelos gráficos para redes gênicas e interações proteicas.

  • Códigos corretores de erros
    Grafos de fatores e propagação de crenças sustentam algoritmos práticos de decodificação (uma história de sucesso célebre da propagação de crenças com ciclos).

Relação com aprendizado profundo (hoje)

Modelos gráficos probabilísticos e aprendizado profundo (deep learning) frequentemente são complementares, em vez de competidores:

  • Atributos neurais + estrutura de modelo gráfico probabilístico: redes neurais aprendem representações; modelos gráficos probabilísticos impõem dependências probabilísticas estruturadas (por exemplo, CRFs neurais).
  • Passagem de mensagens como um padrão: a ideia algorítmica de passar mensagens locais se relaciona conceitualmente a Redes Neurais em Grafos (embora GNNs tipicamente não sejam motores de inferência probabilística por padrão).
  • Programação probabilística (probabilistic programming): frameworks operacionalizam modelos no estilo de modelos gráficos probabilísticos com inferência flexível (frequentemente variacional ou MCMC), às vezes combinando componentes neurais.

Mesmo em uma era dominada por aprendizado profundo, modelos gráficos probabilísticos permanecem valiosos quando as saídas devem respeitar restrições, quando a incerteza deve ser explícita, ou quando os dados são limitados e estrutura/priores importam.

Mini-exemplo trabalhado: modelando e consultando uma rede bayesiana

Abaixo está uma representação compacta do modelo do aspersor e uma consulta típica de inferência (conceitualmente). Inferência exata numérica exige CPTs reais e um motor de inferência, mas o fluxo de trabalho é a ideia principal.

Variables: C (Cloudy), S (Sprinkler), R (Rain), W (WetGrass)

Graph:
C -> S
C -> R
S -> W
R -> W

Query:
Compute P(R=1 | W=1)

Method (one option):
- Use variable elimination:
  Sum out C and S from P(C)P(S|C)P(R|C)P(W|S,R)
  Normalize to get posterior over R given W=1

Na prática, você implementaria isso com uma biblioteca de modelos gráficos probabilísticos ou um sistema de programação probabilística, mas as operações subjacentes são “multiplicar fatores, somar para eliminar variáveis, normalizar”.

Principais trade-offs de projeto e armadilhas

  • Expressividade vs. tratabilidade: conectividade mais rica frequentemente significa inferência mais difícil.
  • A largura de árvore domina a complexidade: mesmo grafos moderados podem ser difíceis se induzirem cliques grandes.
  • Dor da função de partição (campos aleatórios de Markov): normalização pode ser o principal gargalo no aprendizado.
  • Causalidade não é automática: uma rede bayesiana pode representar uma fatoração sem ser um modelo causal; alegações causais exigem suposições adicionais e frequentemente raciocínio intervencional (ver Inferência Causal).

Resumo

Modelos Gráficos Probabilísticos fornecem uma forma principiada de combinar teoria da probabilidade com estrutura de grafo:

  • Redes bayesianas (direcionadas): fatoram como (\prod_i P(X_i \mid \text{parents})); se destacam em modelagem generativa e em uma estrutura de dependências interpretável.
  • Campos aleatórios de Markov (não direcionados): fatoram via potenciais de clique e uma função de partição; se destacam em relações simétricas e em predição estruturada/modelagem de compatibilidade.
  • Inferência — exata ou aproximada — é o problema computacional central.
  • Aprendizado inclui parâmetros e (às vezes) estrutura, com desafios práticos como variáveis ocultas e normalização.
  • Modelos gráficos probabilísticos permanecem altamente relevantes em domínios que exigem incerteza estruturada, e se integram naturalmente a métodos neurais modernos quando estrutura e restrições importam.